CN113918763A

CN113918763A - 视频封面的推荐、生成方法、装置、设备及存储介质

Info

Publication number: CN113918763A
Application number: CN202111143352.9A
Authority: CN
Inventors: 程凯常; 周卫; 司季雨; 吴晓东
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2022-01-11

Abstract

本发明实施例公开了一种视频封面的推荐、生成方法、装置、设备及存储介质。其中，方法包括：获取客户端上传的目标视频文件，并解码得到与获取到的文件内容匹配的各视频图像帧；根据不同视频图像帧之间的图像相似度，形成至少一个视频图像帧聚类簇，其中，一个视频图像帧聚类簇用于描述目标视频文件中一个独立完整的视频场景；确定与每个视频图像帧聚类簇分别对应的备选视频封面，并将各备选视频封面反馈至客户端。本发明实施例的方案，实现了在视频文件上传的过程中，实时获取到优质的视频封面并推荐给用户，供用户选择。

Description

视频封面的推荐、生成方法、装置、设备及存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种视频封面的推荐、生成方法、装置、设备及存储介质。

背景技术

随着视频逐渐成为大众日常生活中最重要的信息交流和获取的媒介，视频的数量越来越大，内容也越来越广泛，在众多的视频当中，视频质量直接影响到了该视频的传播范围和观看量。视频封面作为在第一时间展示给用户的关键内容，它的优劣毫无疑问成了衡量视频质量的重要指标，也直接影响到视频的点击率。

现阶段，用户每天都会在各大视频平台上传大量的视频文件，如何在视频文件上传的过程中，实时获取到优质的视频封面并推荐给用户，从而使用户选择到与其上传的视频文件最匹配的视频封面是业内研究的重点问题。

发明内容

本发明实施例提供一种视频封面的推荐、生成方法、装置、设备及存储介质，以实现在视频文件上传的过程中，实时获取到优质的视频封面并推荐给用户，供用户选择。

第一方面，本发明实施例提供了一种视频封面的推荐方法，包括：获取客户端上传的目标视频文件，并解码得到与获取到的文件内容匹配的各视频图像帧；根据不同视频图像帧之间的图像相似度，形成至少一个视频图像帧聚类簇，其中，一个视频图像帧聚类簇用于描述目标视频文件中一个独立完整的视频场景；确定与每个视频图像帧聚类簇分别对应的备选视频封面，并将各所述备选视频封面反馈至所述客户端。

第二方面，本发明实施例还提供了一直视频封面的生成方法，包括：接收客户端上传的目标视频文件；确定与所述目标视频文件对应的多个备选视频封面，并将各所述备选视频封面反馈至所述客户端；接收客户端反馈的目标备选视频封面，并根据所述目标备选视频封面形成与所述目标视频文件对应的视频封面。

第三方面，本发明实施例还提供了一种视频封面的推荐装置，包括：目标视频文件获取模块，用于获取客户端上传的目标视频文件，并解码得到与获取到的文件内容匹配的各视频图像帧；视频图像帧聚类簇形成模块，用于根据不同视频图像帧之间的图像相似度，形成至少一个视频图像帧聚类簇，其中，一个视频图像帧聚类簇用于描述目标视频文件中一个独立完整的视频场景；备选视频封面确定模块，用于确定与每个视频图像帧聚类簇分别对应的备选视频封面，并将各所述备选视频封面反馈至所述客户端。

第四方面，本发明实施例还提供了一种视频封面的生成装置，包括：目标视频文件接收模块，用于接收客户端上传的目标视频文件；备选视频封面确定模块，用于确定与所述目标视频文件对应的多个备选视频封面，并将各所述备选视频封面反馈至所述客户端；视频封面形成模块，用于接收客户端反馈的目标备选视频封面，并根据所述目标备选视频封面形成与所述目标视频文件对应的视频封面。

第五方面，本发明实施例还提供了一种电子设备，所述电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一实施例所述的视频封面的推荐方法，或者视频封面的生成方法。

第六方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例中任一实施例所述的视频封面的推荐方法，或者视频封面的生成方法。

本发明实施例通过获取客户端上传的目标视频文件，并解码得到与获取到的文件内容匹配的各视频图像帧；根据不同视频图像帧之间的图像相似度，形成至少一个视频图像帧聚类簇，其中，一个视频图像帧聚类簇用于描述目标视频文件中一个独立完整的视频场景；确定与每个视频图像帧聚类簇分别对应的备选视频封面，并将各备选视频封面反馈至客户端，实现了在视频文件上传的过程中，实时获取到优质的视频封面并推荐给用户，供用户选择。

附图说明

图1是本发明实施例一中的一种视频封面的推荐方法的流程图；

图2是本发明实施例二中的一种视频封面的推荐方法的流程图；

图3是本发明实施例三中的一种视频封面的推荐方法的流程图；

图4是本发明实施例三中的一种视频封面的推荐方法的流程图；

图5是本发明实施例四中的一种视频封面的生成方法的流程图；

图6是本发明实施例五中的一种视频封面的推荐装置的结构示意图；

图7是本发明实施例六中的一种视频封面的生成装置的结构示意图；

图8是本发明实施例七中的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

实施例一

图1是本发明实施例一中的一种视频封面的推荐方法的流程图，本实施例可适用于在视频文件上传的过程中，实时获取到优质的视频封面并推荐给用户的情况，该方法可以由视频封面的推荐装置来执行，该装置可以通过软件和/或硬件的方式实现，并集成在电子设备中，在本实施例中，电子设备可以为计算机、服务器或者平板电脑等；需要说明的是，本实施例中涉及到的服务器可以为云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器等；具体的，参考图1，该方法具体包括如下步骤：

步骤110、获取客户端上传的目标视频文件，并解码得到与获取到的文件内容匹配的各视频图像帧。

其中，目标视频文件可以为用户录制的趣味短视频、美食记录视频、游记视频或者微电影视频等，本实施例中对其不加以限定。

在本实施例的一个可选实现方式中，服务器可以实时获取到客户端当前上传的目标视频文件，例如，可以实时获取到目标视频文件在客户端中的存储地址，并进一步的根据存储地址获取到目标视频文件；服务器也可以获取到客户端在历史时刻上传的目标视频文件，例如，可以获取到昨天或者上周上传的目标视频文件的存储地址，并进一步的根据存储地址获取到目标视频文件。

在本实施例中，服务器获取到的文件内容可以是完整的目标视频文件内容，也可以为目标视频文件的一部分视频分片的内容，本实施例中对其不加以限定。示例性的，若目标视频文件所占内存空间的大小为100MB，那么服务器获取到的文件内容可以为100MB的完整目标视频文件内容，也可以为10MB或者20MB等大小的视频分片的内容。

在本实施例的一个可选实现方式中，服务器在获取到客户端上传的目标视频文件之后，可以进一步的对获取到的文件内容(完整目标视频文件内容或者目标视频文件的一部分视频分片内容)进行解码处理，从而得到与获取到的文件内容匹配的多个视频图像帧。

需要说明的是，在本实施例中可以通过基于OpenCV实现对获取到的文件内容进行解码，也可以通过其他方式对获取到的文件内容进行解码，本实施例中对此不再进行赘述。

步骤120、根据不同视频图像帧之间的图像相似度，形成至少一个视频图像帧聚类簇，其中，一个视频图像帧聚类簇用于描述目标视频文件中一个独立完整的视频场景。

在本实施例的一个可选实现方式中，服务器在实时解码得到与当前获取到的文件内容匹配的各视频图像帧之后，可以进一步的计算不同视频图像帧之间的图像相似度，并根据相似度计算结果形成视频图像帧聚类簇；可以理解的是，一个视频图像帧聚类簇可以用于描述目标视频文件中一个独立完整的视频场景；例如，视频图像帧聚类簇A中的各视频图像帧描述的是目标视频文件中的视频场景A(也可以理解为静头A)；视频图像帧聚类簇B中的各视频图像帧描述的是目标视频文件中的视频场景B(也可以理解为静头B)。

在本实施例的一个具体例子中，实时解码得到与当前获取到的文件内容匹配的20个视频图像帧之后，可以进一步的计算每两个视频图像帧之间的图像相似度；当两个视频图像帧之间的图像相似度计算结果大于设定阈值时(例如，0.7、0.8或者0.9等)，则可以将这两个视频图像帧确定为在同一视频图像帧聚类簇内。

步骤130、确定与每个视频图像帧聚类簇分别对应的备选视频封面，并将各备选视频封面反馈至客户端。

其中，与每个视频图像帧聚类簇分别对应的备选视频封面可以包含一个视频图像帧，也可以包含多个视频图像帧，例如，2个、3个或者5个等，本实施例中对其不加以限定。

在本实施例的一个可选实现方式中，在根据不同视频图像帧之间的图像相似度，形成至少一个视频图像帧聚类簇之后，可以进一步的确定与每个图像帧聚类簇对应的备选视频封面，从而将确定的各备选视频封面反馈至客户端，以便用户从这些备选视频封面中选择其最喜欢的备选视频封面作为其上传的目标视频文件的视频封面。

本实施的方案例通过获取客户端上传的目标视频文件，并解码得到与获取到的文件内容匹配的各视频图像帧；根据不同视频图像帧之间的图像相似度，形成至少一个视频图像帧聚类簇，其中，一个视频图像帧聚类簇用于描述目标视频文件中一个独立完整的视频场景；确定与每个视频图像帧聚类簇分别对应的备选视频封面，并将各备选视频封面反馈至客户端，实现了在视频文件上传的过程中，实时获取到优质的视频封面并推荐给用户，供用户选择，可以使用户从这些备选视频封面中选择其最喜欢的备选视频封面作为其上传的目标视频文件的视频封面。

实施例二

图2是本发明实施例二中的一种视频封面的推荐方法的流程图，本实施例是对上述各技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图2所示，视频封面的推荐方法可以包括如下步骤：

步骤210、响应于客户端对目标视频文件的分片上传请求，获取与目标视频文件匹配的分片属性信息；分别根据各存储地址，依次获取目标视频文件的各视频分片。

其中，分片属性信息包括：目标视频文件中各视频分片的存储地址。其中，存储地址可以为统一资源定位符(Uniform Resource Locator，URL)地址；可以理解的是，在本实施例中，各视频分片的存储地址可以为各视频分片在客户端中的存储地址，也可以为各视频分片在存储服务器中的存储地址。

在本实施例的一个可选实现方式中，客户端在上传目标视频文件之前，可以先对目标视频文件进行分片，即分割；例如，可以获取目标视频文件的内存位置，然后按着给定的文件的字节数(例如：1MB、2MB、4MB或者8MB等)对目标视频文件所在的内存进行分割，然后在客户端中重新为每个视频分片分配存储地址；以便服务器根据各视频分片的存储地址获取到各视频分片。

在本实施例的另一个可选实现方式中，客户端按照给定的文件的字节数对目标视频文件所在的内存进行分割之后，还可以按内存顺序依次上传这些分割出来的视频分片到存储服务器，其中，客户端在上传的每一个视频分片中携带有每个视频分片的序号和与目标视频文件对应的总的视频分片数量信息。进一步的，存储服务器可以为接收到的每一个视频分片分配一个URL地址，并将与每个视频分片对应的目标视频文件信息、视频分片的序号、总的分片数量、分片大小和URL地址发送给服务器，以便后续服务器确定多个备选视频封面推荐给用户。

在本实施例中，服务器在接收到客户端对目标视频文件的分片上传请求时，可以从客户端或者存储服务器获取与目标视频文件中各视频分片，在客户端或者存储服务器中的URL地址，并根据各URL地址，获取到目标视频文件的各视频分片。需要说明的是，在本实施例中可以同时获取到目标视频文件的全部视频分片，也可以在目标视频文件上传的过程中依次获取到各视频分片，本实施例中对其不加以限定。

步骤220、解码得到与获取到的文件内容匹配的各视频图像帧。

其中，获取到的文件内容可以为当前获取到的目标视频文件的任一视频分片的内容。在本实施例的一个可选实现方式中，在实时获取到目标视频文件的视频分片之后，可以对当前获取到的视频分片进行解码，从而得到与当前获取到的视频分片匹配的各视频图像帧。

步骤230、分别对各视频图像帧进行至少一个特征维度的特征提取，并根据特征提取结果，形成与各视频图像帧分别对应的特征向量；根据各视频图像帧的特征向量，对各视频图像帧进行聚类处理，得到多个视频图像帧聚类簇。

其中，在本实施例中特征维度可以包括但不限于归一化颜色直方图特征维度、归一化梯度大小直方图特征维度以及归一化梯度方向直方图特征维度。

可选的，在本实施例中，分别对各视频图像帧进行至少一个特征维度的特征提取，并根据特征提取结果，形成与各视频图像帧分别对应的特征向量，可以包括：将当前视频图像帧的图像尺寸缩放至目标图像尺寸，得到当前视频图像帧的归一化图像；对归一化图像进行归一化颜色直方图特征维度的特征提取，得到归一化颜色直方图特征；对归一化图像进行归一化梯度大小直方图特征维度的特征提取，得到归一化梯度大小直方图特征；对归一化图像进行归一化梯度方向直方图特征维度的特征提取，得到归一化梯度方向直方图特征；将归一化颜色直方图特征、归一化梯度大小直方图特征以及归一化梯度方向直方图特征进行特征拼接，得到与当前视频图像帧匹配的特征向量。

其中，目标图像尺寸可以为256*256，也可以为512*512，本实施例中对其不加以限定。

在本实施例的一个可选实现方式中，对归一化图像进行归一化颜色直方图特征维度的特征提取，得到归一化颜色直方图特征，可以包括：将归一化图像转换至HSV颜色空间，并将HSV颜色空间中的各颜色通道平均分为至少两个灰度区间；统计各灰度区间内的像素数量，并根据各像素数量确定与当前视频图像帧对应的归一化颜色直方图特征。

在本实施例的一个具体例子中，在将归一化图像转换到HSV颜色空间之后，可以进一步的将H通道在[0，255]范围内平分为12个区间，将S和V通道在[0，255]范围内平分为5个区间，再分别统计每个通道落在每个区间的像素数量，最后将统计结果除以该图像所有通道的像素总数得到归一化的颜色直方图特征。

在本实施例的一个可选实现方式中，对归一化图像进行归一化梯度大小直方图特征维度的特征提取，得到归一化梯度大小直方图特征，可以包括：将归一化图像转换为灰度图像，并计算灰度图像在垂直方向的梯度值，以及竖直方向的梯度值；根据灰度图像在垂直方向的梯度值，以及竖直方向的梯度值确定与当前视频图像帧对应的归一化梯度大小直方图。

在本实施例的一个具体例子中，在将归一化图像转换为灰度图之后，可以使用Sobel算子分别计算该灰度图X方向和Y方向的梯度数值grad_x和grad_y，对计算得到的梯度通过线性变换将数值范围转换到[0，255]的无符号整数grad_x’和grad_y’，每个像素位置最终的幅值大小可表示为H＝0.5×grad_x’+0.5×grad_y’，将梯度大小在[0，255]范围内平分为128个区间，分别统计梯度大小落在每个区间的像素数量，最后再除以灰度图的像素总数得到归一化的梯度大小直方图特征。

在本实施例的一个可选实现方式中，对归一化图像进行归一化梯度方向直方图特征维度的特征提取，得到归一化梯度方向直方图特征，可以包括：根据灰度图像在垂直方向的梯度值，以及竖直方向的梯度值确定梯度方向；根据梯度方向确定与当前视频图像帧对应的归一化梯度方向直方图。

在本实施例的一个具体例子中，可以基于上述例子中计算得到的X方向和Y方向上的梯度数值计算梯度的方向，也即基于公式theta＝arctan2(grad_y，grad_x)得到该灰度图每个像素位置的梯度方向，将得到的梯度方向在[-pi，pi]范围内平分为36个区间，分别统计梯度方向落在每个区间的像素数量，最后再除以灰度图的像素总数得到归一化的梯度方向直方图特征。

可选的，根据各视频图像帧的特征向量，对各视频图像帧进行聚类处理，得到多个视频图像帧聚类簇，可以包括：确定与前后两个视频图像帧对应的特征向量之间的相似度；当相似度大于设定相似度阈值(例如，0.7)时，确定前后两个视频图像帧包含在同一图像帧聚类簇内。

步骤240、确定与每个视频图像帧聚类簇分别对应的备选视频封面，并将各备选视频封面反馈至客户端。

在本实施例的一个可选实现方式中，确定与每个视频图像帧聚类簇分别对应的备选视频封面可以包括：获取当前视频图像帧聚类簇中的每个视频图像帧分别对应的至少一项图像质量描述指标的指标值；根据各图像质量描述指标的指标值，计算与每个视频图像帧分别对应的图像质量评分；在当前视频图像帧聚类簇中，筛选得到图像质量评分满足评分阈值条件的至少一个备选视频封面。

其中，图像质量描述指标可以包括：图像亮度、图像清晰度以及图像颜色均匀度。评分阈值条件可以为将评分最高或者评分大于设定评分阈值的至少一个视频图像帧作为备选视频封面。

相应的，获取当前视频图像帧聚类簇中的每个视频图像帧分别对应的至少一项图像质量描述指标的指标值，可以包括：根据预设的亮度计算公式确定与各视频图像帧分别对应的图像亮度，并对图像亮度进行归一化，得到各视频图像帧分别对应的图像亮度指标值；根据预设的算子确定与各视频图像帧对应的梯度方差，并对梯度方差进行归一化，得到与各视频图像帧分别对应的图像清晰度指标值；分别将各视频图像帧转换为目标灰度图像，并确定与目标灰度图像对应的灰度分布直方图；按照设定顺序对灰度分布直方图各区间内的像素值进行排序，将满足预设条件的各目标区间内的像素值占各视频图像帧全部像素值的比例，确定为与各视频图像帧分别对应的图像颜色均匀度指标值。

其中，预设的亮度计算公式可以为：L＝mean(0.2126×R+0.7152×G+0.0722×B)计算得到亮度，其中mean()表示取平均值，R、G、B分别表示图像的三个通道的像素值。预设的算子可以为拉普拉斯算子，或者其他算子，本实施例中对其不加以限定。设定顺序可以为从大到小的顺序，也可以为从小到大的顺序，本实施例中对其不加以限定。

在本实施例的一个具体例子中，对于图像亮度指标值，可以首先根据公式L＝mean(0.2126×R+0.7152×G+0.0722×B)计算得到亮度，其中mean()表示取平均值，R、G、B分别表示图像的三个通道的像素值，最后以L＝100为最高得分1.0，L＝0和L＝255为最低得分0，L数值向两端逐渐递减对亮度做规范化得到最终的亮度得分score_Luminance；对于图像清晰度指标值，可以首先使用拉普拉斯算子计算整副图像的拉普拉斯梯度的方差，然后再对该方差取算术平方根得到清晰度，对该清晰度除以128进行规范化得到最终清晰度score_Sharpness；对于图像颜色均匀度指标值，可以首先将图像转换到灰度图，将灰度值在[0，255]范围内平分为256个区间，分别统计灰度值落在每个区间的像素数量，得到灰度值分布式直方图，并对该直方图每个区间的数量进行从大到小的排序，统计排序在前5％的像素总数num，再将num除以灰度图全部像素数得到排序前5％的像素在整幅图当中的比例，也即最终的颜色均匀度score_Uniform。

在本实施例的另一个可选实现方式中，图像质量描述指标，还可以包括：图像美学质量；相应的，获取当前视频图像帧聚类簇中的每个视频图像帧分别对应的至少一项图像质量描述指标的指标值，还可以包括：获取公开的美学评估数据集，并使用美学评估数据集对设定的第一机器学习模型进行训练，得到美学评估模型；分别将各视频图像帧输入至美学评估模型中，得到与各视频图像帧分别对应的图像美学质量指标值。

其中，第一机器学习模型可以为ResNet50机器学习模型，也可以为其他机器学习模型，本实施例中对其不加以限定。

在本实施例的一个具体例子中，可以以ResNet50作为backbone，基于公开的美学质量评估数据集AVADataset训练一个美学打分模型，打分输出范围为0～1.0，分数越高代表美学质量越高，模型输出即为该图像的最终的美学得分score_Aesthetics，即与该图像对应的图像美学质量指标值。

在本实施例的另一个可选实现方式中，图像质量描述指标，还可以包括：人脸维度；

相应的，获取当前视频图像帧聚类簇中的每个视频图像帧分别对应的至少一项图像质量描述指标的指标值，还可以包括：获取公开的人脸数据集，并使用人脸数据集对设定的第二机器学习模型进行训练，得到人脸检测模型；人脸检测模型用于对人脸以及人脸关键点的检测；分别将各视频图像帧输入至人脸检测模型中，得到与各视频图像帧分别对应的不同人脸特征维度的输出结果；人脸特征维度包括：人脸位置、人脸大小、人脸角度以及人脸表情；分别为各人脸特征维度分配权重值，并根据各权重值计算得到与各视频图像帧分别对应的人脸维度指标值。

其中，第二机器学习模型可以为人脸检测模型或者人脸关键点检测模型，本实施例中对其不加以限定。

在本实施例的一个具体例子中，可以首先训练一个同时检测人脸和人脸关键点的模型；需要说明的是，在本实施例中，对于人脸维度，也采取了多角度打分的策略；示例性的，人脸打分的维度包括人脸位置、人脸大小、人脸角度、人脸表情四个维度，其权重分别为0.5、0.2、0.2、0.1；其中，(a)人脸位置得分为P，越靠近图像中央得分越高，最高分为1.0，越远离图像中央得分越低，最低分为0；(b)人脸大小得分为A，越接近图像尺寸大小的1/8得分越高，最高分为1.0，越远离图像尺寸大小的1/8的得分越低，最低分为0；(c)人脸角度得分为R，越接近正向，得分越高，最高分为1.0，人脸转向角度越大，得分越低，最低分为侧脸90度时候为0；(d)人脸表情得分为E，打分定义为眼睛和嘴巴张开的程度越大得分越高，最高分为1.0，最低分为闭眼和闭嘴情况为0，那么最终的人脸维度指标值score_Face＝0.5×P+0.2×A+0.2×R+0.1×E。

在本实施例的一个可选实现方式中，根据各图像质量描述指标的指标值，计算与每个视频图像帧分别对应的图像质量评分，可以包括：分别为各图像质量描述指标分配权重值，依次将与目标视频图像帧对应的各图像质量描述指标的指标值与其对应的目标权重值相乘，并将各乘积结果相加，得到与目标视频图像帧对应的图像质量评分。

示例性的，为各图像质量描述指标分配的权重值可以依次为0.1、0.3、0.05、0.3以及0.25；相应的，针对上述各例子中，对于一个视频图像帧，最终的封面质量得分可以为：score＝0.1×score_Luminance+0.3×score_Sharpness+0.05×score_Uniform+0.3×score_Aesthetics+0.25×score_Face。

可以理解的是，本实施例中服务器向客户端反馈的是一张张独立的备选视频封面，当用户选择其中一个备选视频封面作为目标视频文件的视频封面时，那么用户所选择的备选视频封面即为目标视频文件的静态封面。

本实施例的方案，通过响应于客户端对目标视频文件的分片上传请求，获取与目标视频文件匹配的分片属性信息；分别根据各存储地址，依次获取目标视频文件的各视频分片，可以实现在目标视频文件上传的过程中确定出备选视频封面，提高了视频封面的推荐效率；分别对各视频图像帧进行至少一个特征维度的特征提取，并根据特征提取结果，形成与各视频图像帧分别对应的特征向量；根据各视频图像帧的特征向量，对各视频图像帧进行聚类处理，得到多个视频图像帧聚类簇，为后续将优质的视频图像帧作为备选视频封面推荐给用户提高保障；进一步的，根据各图像质量描述指标的指标值，计算与每个视频图像帧分别对应的图像质量评分；在当前视频图像帧聚类簇中，筛选得到图像质量评分满足评分阈值条件的至少一个备选视频封面，可以将优质的视频封面并推荐给用户，进而提升了用户体验。

实施例三

图3是本发明实施例三中的一种视频封面的推荐方法的流程图，本实施例是对上述各技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图3所示，视频封面的推荐方法可以包括如下步骤：

步骤310、获取客户端上传的目标视频文件，并解码得到与获取到的文件内容匹配的各视频图像帧。

步骤320、根据不同视频图像帧之间的图像相似度，形成至少一个视频图像帧聚类簇，其中，一个视频图像帧聚类簇用于描述目标视频文件中一个独立完整的视频场景。

步骤330、确定各视频图像帧聚类簇所包含的视频图像帧的数量；当目标视频图像帧聚类簇所包含的视频图像帧的数量小于设定数量阈值时，滤除目标视频图像帧聚类簇。

其中，设定数量阈值可以为10个、12个或者15个等，本实施例中对其不加以限定；目标视频图像帧聚类簇可以为形成的各视频图像帧聚类簇中的任一图像帧聚类簇，本实施例中对其不加以限定。

在本实施例的一个具体例子中，若根据不同视频图像帧之间的图像相似度，形成了20个视频图像帧聚类簇，则可以进一步分别确定这20个视频图像帧聚类簇包含的视频图像帧的数量；如果第一个视频图像帧聚类簇包含的视频图像帧数量为5(小于设定数量阈值10)，则可以滤除第一个视频图像帧聚类簇。

这样设置的好处在于，可以防止由于视频图像帧聚类簇中包含的视频图像帧数量较少，而无法确定清晰的备选视频封面，从而对视频封面的推荐结果产生消极影响。

步骤340、确定与每个视频图像帧聚类簇分别对应的备选视频封面，并将各备选视频封面反馈至客户端。

步骤350、响应于客户端针对目标备选视频封面发送的动态视频封面生成请求，获取与目标备选视频封面匹配的目标视频图像帧聚类簇；在目标视频图像帧聚类簇中，筛选与目标备选视频封面匹配的前后关联视频帧；将目标备选视频以及各前后关联视频帧，组合得到与目标备选视频封面匹配的动态视频封面。

其中，目标备选视频封面即为用户选择的作为目标视频文件的静态封面的备选视频封面，其为反馈至客户端的多个备选视频封面中的任一备选视频封面。

在本实施例的一个可选实现方式中，在将各备选视频封面反馈至客户端之后，如果进一步的接收到客户端针对目标备选视频封面发送的动态视频封面的生成请求，则可以获取与目标备选视频封面匹配的目标视频图像帧聚类簇；并在目标视频图像帧聚类簇中筛选出与目标备选视频封面匹配的前后关联视频帧；进一步的，可以按照时间顺序，将目标备选视频封面以及各前后关联视频帧，组合得到与目标备选视频封面匹配的动态视频封面，并将生成的动态视频封面反馈至客户端。

在本实施例的一个具体例子中，若接收到客户端针对备选视频封面A发送的动态视频封面的生成请求，则可以获取与备选视频封面A匹配的视频图像帧聚类簇A；并在目标视频图像帧聚类簇A中筛选出与目标备选视频封面匹配的前后10个关联视频帧；进一步的，将备选视频封面A以及10个关联视频帧，按照时间先后顺序组合得到与目标备选视频封面匹配的动态视频封面，并将生成的动态视频封面反馈至客户端。

本实施例的方案，在将各备选视频封面反馈至客户端之后，还可以包括：响应于客户端针对目标备选视频封面发送的动态视频封面生成请求，获取与目标备选视频封面匹配的目标视频图像帧聚类簇；在目标视频图像帧聚类簇中，筛选与目标备选视频封面匹配的前后关联视频帧；将目标备选视频以及各前后关联视频帧，组合得到与目标备选视频封面匹配的动态视频封面，可以快速地生成与目标视频文件匹配的动态视频封面，且生成的动态视频封面与目标视频文件的内容贴合度较高，丰富了视频封面的类型，并且执行速度快。

为了使本领域技术人员更好地理解本实施例视频封面的推荐方法，下面采用一个具体示例进行说明，图4是本发明实施例三中的一种视频封面的推荐方法的流程图，其具体过程包括有：

步骤410、客户端用户上传目标视频文件至存储服务器。

步骤420、存储服务器接收目标视频文件的视频分片，为每个视频分片分配URL地址，并将各URL地址发送至服务器。

步骤430、服务器根据各URL地址，从存储服务器中下载各视频分片。

步骤431、对视频分片进行解码，得到多个视频图像帧。

步骤432、对每个视频图像帧进行特征提取，得到每个视频图像帧对应的视频片段。

步骤433、视频场景解析。

在本实施例中，可以按照顺序逐一比较当前帧和前一帧的特征向量相似度，相似度高于70％视为同一个视频场景，否则视为新的视频场景。上述得到的特征向量其实为归一化的直方图特征，相似度可以跟据十字交叉性表示为直方图对应区间上的重合度，完全重合为1.0，也即计算两个直方图对应位置上的最小值，然后求和即可。

步骤434、关键视频场景提取。

在本实施例中，镜头的长短，也即每个视频场景包含的连续帧数的数量在一定程度上代表了该视频场景在整个视频当中的重要性，基于这个假设，在该环节先对视频场景包含的帧数进行从大到小的排序，只选取图像帧数占该段视频总帧数的80％的镜头参与后续计算。

步骤435、备选视频封面提取。

备选视频封面是代表该视频场景最重要的一帧，首先计算该视频场景全部特征向量的平均值，然后找到特征向量距离该平均值距离最近的那一帧，假设该段镜头的总帧数为M，最后按照帧的顺序，在该帧前后M×10％的范围内比较每一帧的清晰度，取最清晰的一帧作为该镜头的备选视频封面。

步骤436、将备选视频封面反馈至客户端。

步骤440、备选视频封面的数量是否大于设定数量阈值；

若是，执行步骤450；否则，返回执行步骤431。

步骤450、用户选择目标备选视频封面。

步骤460、将备选视频封面作为目标视频文件的视频封面。

本发明实施例的方案，将基于AI的视频内容理解技术应用于视频封面的自动、实时推荐，可降低用户自己制作封面的门槛，极大地方便用户上传视频，促进平台视频数量的快速增长。除此之外，还可以提高视频平台的整体封面质量，可保证平台整体视频封面风格的统一性。

实施例四

图5是本发明实施例四中的一种视频封面的生成方法的流程图，本实施例可适用于准确地生成与目标视频问下相对应的视频封面的情况，该方法可以由视频封面的生成装置来执行，该装置可以通过软件和/或硬件的方式实现，并集成在电子设备中，在本实施例中，电子设备可以为计算机、服务器或者平板电脑等；需要说明的是，本实施例中涉及到的服务器可以为云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器等；具体的，参考图5，该方法具体包括如下步骤：

步骤510、接收客户端上传的目标视频文件。

步骤520、确定与目标视频文件对应的多个备选视频封面，并将各备选视频封面反馈至客户端。

可以理解的是，在本实施例中，可以通过上述各实施例中涉及到的视频封面的推荐方法确定与目标视频文件对应的多个备选视频封面。可选的，在接收到客户端上传的目标视频文件之后，可以解码得到与获取到的文件内容匹配的各视频图像帧；根据不同视频图像帧之间的图像相似度，形成至少一个视频图像帧聚类簇，其中，一个视频图像帧聚类簇用于描述目标视频文件中一个独立完整的视频场景；确定与每个视频图像帧聚类簇分别对应的备选视频封面，并将各所述备选视频封面反馈至所述客户端。

在本实施例的一个可选实现方式中，根据不同视频图像帧之间的图像相似度，形成多个视频图像帧聚类簇，包括：分别对各视频图像帧进行至少一个特征维度的特征提取，并根据特征提取结果，形成与各视频图像帧分别对应的特征向量；根据各视频图像帧的特征向量，对各视频图像帧进行聚类处理，得到多个视频图像帧聚类簇。

在本实施例的一个可选实现方式中，所述特征维度包括：归一化颜色直方图特征维度、归一化梯度大小直方图特征维度以及归一化梯度方向直方图特征维度；相应的，所述分别对各视频图像帧进行至少一个特征维度的特征提取，并根据特征提取结果，形成与各视频图像帧分别对应的特征向量，包括：将当前视频图像帧的图像尺寸缩放至目标图像尺寸，得到当前视频图像帧的归一化图像；对所述归一化图像进行归一化颜色直方图特征维度的特征提取，得到归一化颜色直方图特征；对所述归一化图像进行归一化梯度大小直方图特征维度的特征提取，得到归一化梯度大小直方图特征；对所述归一化图像进行归一化梯度方向直方图特征维度的特征提取，得到归一化梯度方向直方图特征；将所述归一化颜色直方图特征、所述归一化梯度大小直方图特征以及所述归一化梯度方向直方图特征进行特征拼接，得到与所述当前视频图像帧匹配的特征向量。

在本实施例的一个可选实现方式中，所述对所述归一化图像进行归一化颜色直方图特征维度的特征提取，得到归一化颜色直方图特征，包括：将所述归一化图像转换至HSV颜色空间，并将所述HSV颜色空间中的各颜色通道平均分为至少两个灰度区间；统计各所述灰度区间内的像素数量，并根据各所述像素数量确定与所述当前视频图像帧对应的归一化颜色直方图特征。

在本实施例的一个可选实现方式中，所述对所述归一化图像进行归一化梯度大小直方图特征维度的特征提取，得到归一化梯度大小直方图特征，包括：将所述归一化图像转换为灰度图像，并计算所述灰度图像在垂直方向的梯度值，以及竖直方向的梯度值；根据所述灰度图像在垂直方向的梯度值，以及竖直方向的梯度值确定与所述当前视频图像帧对应的归一化梯度大小直方图。

在本实施例的一个可选实现方式中，所述对所述归一化图像进行归一化梯度方向直方图特征维度的特征提取，得到归一化梯度方向直方图特征，包括：根据所述灰度图像在垂直方向的梯度值，以及竖直方向的梯度值确定梯度方向；根据所述梯度方向确定与所述当前视频图像帧对应的归一化梯度方向直方图。

在本实施例的一个可选实现方式中，确定与每个视频图像帧聚类簇分别对应的备选视频封面，包括：获取当前视频图像帧聚类簇中的每个视频图像帧分别对应的至少一项图像质量描述指标的指标值；根据各图像质量描述指标的指标值，计算与每个视频图像帧分别对应的图像质量评分；在所述当前视频图像帧聚类簇中，筛选得到图像质量评分满足评分阈值条件的至少一个备选视频封面。

在本实施例的一个可选实现方式中，所述图像质量描述指标，包括：图像亮度、图像清晰度以及图像颜色均匀度；相应的，所述获取当前视频图像帧聚类簇中的每个视频图像帧分别对应的至少一项图像质量描述指标的指标值，包括：根据预设的亮度计算公式确定与各所述视频图像帧分别对应的图像亮度，并对所述图像亮度进行归一化，得到各所述视频图像帧分别对应的图像亮度指标值；根据预设的算子确定与各所述视频图像帧对应的梯度方差，并对所述梯度方差进行归一化，得到与各所述视频图像帧分别对应的图像清晰度指标值；分别将各所述视频图像帧转换为目标灰度图像，并确定与所述目标灰度图像对应的灰度分布直方图；按照设定顺序对所述灰度分布直方图各区间内的像素值进行排序，将满足预设条件的各目标区间内的像素值占各所述视频图像帧全部像素值的比例，确定为与各所述视频图像帧分别对应的图像颜色均匀度指标值。

在本实施例的一个可选实现方式中，所述图像质量描述指标，还包括：图像美学质量；相应的，所述获取当前视频图像帧聚类簇中的每个视频图像帧分别对应的至少一项图像质量描述指标的指标值，还包括：获取公开的美学评估数据集，并使用所述美学评估数据集对设定的第一机器学习模型进行训练，得到美学评估模型；分别将各所述视频图像帧输入至所述美学评估模型中，得到与各所述视频图像帧分别对应的图像美学质量指标值。

在本实施例的一个可选实现方式中，所述图像质量描述指标，还包括：人脸维度；相应的，所述获取当前视频图像帧聚类簇中的每个视频图像帧分别对应的至少一项图像质量描述指标的指标值，还包括：获取公开的人脸数据集，并使用所述人脸数据集对设定的第二机器学习模型进行训练，得到人脸检测模型；所述人脸检测模型用于对人脸以及人脸关键点的检测；分别将各所述视频图像帧输入至所述人脸检测模型中，得到与各所述视频图像帧分别对应的不同人脸特征维度的输出结果；所述人脸特征维度包括：人脸位置、人脸大小、人脸角度以及人脸表情；分别为各所述人脸特征维度分配权重值，并根据各权重值计算得到与各所述视频图像帧分别对应的人脸维度指标值。

在本实施例的一个可选实现方式中，所述根据各图像质量描述指标的指标值，计算与每个视频图像帧分别对应的图像质量评分，包括：分别为各所述图像质量描述指标分配权重值，依次将与目标视频图像帧对应的各图像质量描述指标的指标值与其对应的目标权重值相乘，并将各乘积结果相加，得到与目标视频图像帧对应的图像质量评分。

在本实施例的一个可选实现方式中，在形成至少一个视频图像帧聚类簇之后，还包括：确定各所述视频图像帧聚类簇所包含的视频图像帧的数量；当目标视频图像帧聚类簇所包含的视频图像帧的数量小于设定数量阈值时，滤除所述目标视频图像帧聚类簇。

在本实施例的一个可选实现方式中，在将各所述备选视频封面反馈至所述客户端之后，还包括：响应于客户端针对目标备选视频封面发送的动态视频封面生成请求，获取与所述目标备选视频封面匹配的目标视频图像帧聚类簇；在所述目标视频图像帧聚类簇中，筛选与所述目标备选视频封面匹配的前后关联视频帧；将所述目标备选视频以及各所述前后关联视频帧，组合得到与所述目标备选视频封面匹配的动态视频封面。

步骤530、接收客户端反馈的目标备选视频封面，并根据目标备选视频封面形成与目标视频文件对应的视频封面。

其中，目标客户端反馈的目标备选视频封面可以为用户选定的各备选视频封面中的任一备选视频封面，本实施例中对其不加以限定。

本实施例的方案，通过接收客户端上传的目标视频文件；确定与所述目标视频文件对应的多个备选视频封面，并将各所述备选视频封面反馈至所述客户端；接收客户端反馈的目标备选视频封面，并根据所述目标备选视频封面形成与所述目标视频文件对应的视频封面，可以快速且准确地确定与目标视频文件对应的视频封面，提升了视频封面的质量。

实施例五

图6是本发明实施例五中的一种视频封面的推荐装置的结构示意图，该装置可以执行上述各实施例中涉及到的视频封面的推荐方法。参照图6，该装置包括：目标视频文件获取模块610、视频图像帧聚类簇形成模块620以及备选视频封面确定模块630。

目标视频文件获取模块610，用于获取客户端上传的目标视频文件，并解码得到与获取到的文件内容匹配的各视频图像帧；

视频图像帧聚类簇形成模块620，用于根据不同视频图像帧之间的图像相似度，形成至少一个视频图像帧聚类簇，其中，一个视频图像帧聚类簇用于描述目标视频文件中一个独立完整的视频场景；

备选视频封面确定模块630，用于确定与每个视频图像帧聚类簇分别对应的备选视频封面，并将各所述备选视频封面反馈至所述客户端。

本实施例的方案，通过目标视频文件获取模块获取客户端上传的目标视频文件，并解码得到与当前获取到的文件内容匹配的各视频图像帧；通过视频图像帧聚类簇形成模块根据不同视频图像帧之间的图像相似度，形成至少一个视频图像帧聚类簇，其中，一个视频图像帧聚类簇用于描述目标视频文件中一个独立完整的视频场景；通过备选视频封面确定模块确定与每个视频图像帧聚类簇分别对应的备选视频封面，并将各所述备选视频封面反馈至所述客户端，实现了在视频文件上传的过程中，实时获取到优质的视频封面并推荐给用户，供用户选择。

在本实施例的一个可选实现方式中，目标视频文件获取模块610，具体用于响应于客户端对目标视频文件的分片上传请求，获取与所述目标视频文件匹配的分片属性信息，分片属性信息包括：目标视频文件中各视频分片的存储地址；分别根据各所述存储地址，依次获取目标视频文件的各视频分片。

在本实施例的一个可选实现方式中，视频图像帧聚类簇形成模块620，具体用于分别对各视频图像帧进行至少一个特征维度的特征提取，并根据特征提取结果，形成与各视频图像帧分别对应的特征向量；根据各视频图像帧的特征向量，对各视频图像帧进行聚类处理，得到多个视频图像帧聚类簇。

在本实施例的一个可选实现方式中，所述特征维度包括：归一化颜色直方图特征维度、归一化梯度大小直方图特征维度以及归一化梯度方向直方图特征维度；相应的，所述视频图像帧聚类簇形成模块620，具体用于将当前视频图像帧的图像尺寸缩放至目标图像尺寸，得到当前视频图像帧的归一化图像；对所述归一化图像进行归一化颜色直方图特征维度的特征提取，得到归一化颜色直方图特征；对所述归一化图像进行归一化梯度大小直方图特征维度的特征提取，得到归一化梯度大小直方图特征；对所述归一化图像进行归一化梯度方向直方图特征维度的特征提取，得到归一化梯度方向直方图特征；将所述归一化颜色直方图特征、所述归一化梯度大小直方图特征以及所述归一化梯度方向直方图特征进行特征拼接，得到与所述当前视频图像帧匹配的特征向量。

在本实施例的一个可选实现方式中，所述视频图像帧聚类簇形成模块620，还具体用于将所述归一化图像转换至HSV颜色空间，并将所述HSV颜色空间中的各颜色通道平均分为至少两个灰度区间；统计各所述灰度区间内的像素数量，并根据各所述像素数量确定与所述当前视频图像帧对应的归一化颜色直方图特征。

在本实施例的一个可选实现方式中，所述视频图像帧聚类簇形成模块620，还具体用于将所述归一化图像转换为灰度图像，并计算所述灰度图像在垂直方向的梯度值，以及竖直方向的梯度值；根据所述灰度图像在垂直方向的梯度值，以及竖直方向的梯度值确定与所述当前视频图像帧对应的归一化梯度大小直方图。

在本实施例的一个可选实现方式中，所述视频图像帧聚类簇形成模块620，还具体用于根据所述灰度图像在垂直方向的梯度值，以及竖直方向的梯度值确定梯度方向；根据所述梯度方向确定与所述当前视频图像帧对应的归一化梯度方向直方图。

在本实施例的一个可选实现方式中，备选视频封面确定模块630，具体用于获取当前视频图像帧聚类簇中的每个视频图像帧分别对应的至少一项图像质量描述指标的指标值；根据各图像质量描述指标的指标值，计算与每个视频图像帧分别对应的图像质量评分；在所述当前视频图像帧聚类簇中，筛选得到图像质量评分满足评分阈值条件的至少一个备选视频封面。

在本实施例的一个可选实现方式中，所述图像质量描述指标，包括：图像亮度、图像清晰度以及图像颜色均匀度；相应的，备选视频封面确定模块630，还具体用于根据预设的亮度计算公式确定与各所述视频图像帧分别对应的图像亮度，并对所述图像亮度进行归一化，得到各所述视频图像帧分别对应的图像亮度指标值；根据预设的算子确定与各所述视频图像帧对应的梯度方差，并对所述梯度方差进行归一化，得到与各所述视频图像帧分别对应的图像清晰度指标值；分别将各所述视频图像帧转换为目标灰度图像，并确定与所述目标灰度图像对应的灰度分布直方图；按照设定顺序对所述灰度分布直方图各区间内的像素值进行排序，将满足预设条件的各目标区间内的像素值占各所述视频图像帧全部像素值的比例，确定为与各所述视频图像帧分别对应的图像颜色均匀度指标值。

在本实施例的一个可选实现方式中，所述图像质量描述指标，还包括：图像美学质量；相应的，备选视频封面确定模块630，还具体用于获取公开的美学评估数据集，并使用所述美学评估数据集对设定的第一机器学习模型进行训练，得到美学评估模型；分别将各所述视频图像帧输入至所述美学评估模型中，得到与各所述视频图像帧分别对应的图像美学质量指标值。

在本实施例的一个可选实现方式中，所述图像质量描述指标，还包括：人脸维度；相应的，备选视频封面确定模块630，还具体用于获取公开的人脸数据集，并使用所述人脸数据集对设定的第二机器学习模型进行训练，得到人脸检测模型；所述人脸检测模型用于对人脸以及人脸关键点的检测；分别将各所述视频图像帧输入至所述人脸检测模型中，得到与各所述视频图像帧分别对应的不同人脸特征维度的输出结果；所述人脸特征维度包括：人脸位置、人脸大小、人脸角度以及人脸表情；分别为各所述人脸特征维度分配权重值，并根据各权重值计算得到与各所述视频图像帧分别对应的人脸维度指标值。

在本实施例的一个可选实现方式中，备选视频封面确定模块630，还具体用于分别为各所述图像质量描述指标分配权重值，依次将与目标视频图像帧对应的各图像质量描述指标的指标值与其对应的目标权重值相乘，并将各乘积结果相加，得到与目标视频图像帧对应的图像质量评分。

在本实施例的一个可选实现方式中，视频封面的推荐装置，还包括：视频图像帧聚类簇滤除模块，用于确定各所述视频图像帧聚类簇所包含的视频图像帧的数量；当目标视频图像帧聚类簇所包含的视频图像帧的数量小于设定数量阈值时，滤除所述目标视频图像帧聚类簇。

在本实施例的一个可选实现方式中，视频封面的推荐装置，还包括：动态视频封面生成模块，用于响应于客户端针对目标备选视频封面发送的动态视频封面生成请求，获取与所述目标备选视频封面匹配的目标视频图像帧聚类簇；在所述目标视频图像帧聚类簇中，筛选与所述目标备选视频封面匹配的前后关联视频帧；将所述目标备选视频以及各所述前后关联视频帧，组合得到与所述目标备选视频封面匹配的动态视频封面。

本发明实施例所提供的视频封面的推荐装置可执行本发明任意实施例所提供的视频封面的推荐方法，具备执行方法相应的功能模块和有益效果。

实施例六

图7是本发明实施例六中的一种视频封面的生成装置的结构示意图，该装置可以执行上述各实施例中涉及到的视频封面的生成方法。参照图7，该装置包括：目标视频文件接收模块710、备选视频封面确定模块720以及视频封面形成模块730。

目标视频文件接收模块710，用于接收客户端上传的目标视频文件；

备选视频封面确定模块720，用于确定与所述目标视频文件对应的多个备选视频封面，并将各所述备选视频封面反馈至所述客户端；

视频封面形成模块730，用于接收客户端反馈的目标备选视频封面，并根据所述目标备选视频封面形成与所述目标视频文件对应的视频封面。

本实施例的方案，通过目标视频文件接收模块接收客户端上传的目标视频文件；通过备选视频封面确定模块确定与所述目标视频文件对应的多个备选视频封面，并将各所述备选视频封面反馈至所述客户端；通过视频封面形成模块接收客户端反馈的目标备选视频封面，并根据所述目标备选视频封面形成与所述目标视频文件对应的视频封面，可以快速且准确地确定与目标视频文件对应的视频封面，提升了视频封面的质量。

在本实施例的一个可选实现方式中，备选视频封面确定模块720，可以包括视频图像帧聚类簇形成模块，以及备选视频封面确定模块。

可选的，视频图像帧聚类簇形成模块具体用于分别对各视频图像帧进行至少一个特征维度的特征提取，并根据特征提取结果，形成与各视频图像帧分别对应的特征向量；根据各视频图像帧的特征向量，对各视频图像帧进行聚类处理，得到多个视频图像帧聚类簇。

在本实施例的一个可选实现方式中，所述特征维度包括：归一化颜色直方图特征维度、归一化梯度大小直方图特征维度以及归一化梯度方向直方图特征维度；相应的，所述视频图像帧聚类簇形成模块具体用于将当前视频图像帧的图像尺寸缩放至目标图像尺寸，得到当前视频图像帧的归一化图像；对所述归一化图像进行归一化颜色直方图特征维度的特征提取，得到归一化颜色直方图特征；对所述归一化图像进行归一化梯度大小直方图特征维度的特征提取，得到归一化梯度大小直方图特征；对所述归一化图像进行归一化梯度方向直方图特征维度的特征提取，得到归一化梯度方向直方图特征；将所述归一化颜色直方图特征、所述归一化梯度大小直方图特征以及所述归一化梯度方向直方图特征进行特征拼接，得到与所述当前视频图像帧匹配的特征向量。

在本实施例的一个可选实现方式中，所述视频图像帧聚类簇形成模块还具体用于将所述归一化图像转换至HSV颜色空间，并将所述HSV颜色空间中的各颜色通道平均分为至少两个灰度区间；统计各所述灰度区间内的像素数量，并根据各所述像素数量确定与所述当前视频图像帧对应的归一化颜色直方图特征。

在本实施例的一个可选实现方式中，所述视频图像帧聚类簇形成模块还具体用于将所述归一化图像转换为灰度图像，并计算所述灰度图像在垂直方向的梯度值，以及竖直方向的梯度值；根据所述灰度图像在垂直方向的梯度值，以及竖直方向的梯度值确定与所述当前视频图像帧对应的归一化梯度大小直方图。

在本实施例的一个可选实现方式中，所述视频图像帧聚类簇形成模块还具体用于根据所述灰度图像在垂直方向的梯度值，以及竖直方向的梯度值确定梯度方向；根据所述梯度方向确定与所述当前视频图像帧对应的归一化梯度方向直方图。

在本实施例的一个可选实现方式中，备选视频封面确定模块具体用于获取当前视频图像帧聚类簇中的每个视频图像帧分别对应的至少一项图像质量描述指标的指标值；根据各图像质量描述指标的指标值，计算与每个视频图像帧分别对应的图像质量评分；在所述当前视频图像帧聚类簇中，筛选得到图像质量评分满足评分阈值条件的至少一个备选视频封面。

在本实施例的一个可选实现方式中，所述图像质量描述指标，包括：图像亮度、图像清晰度以及图像颜色均匀度；相应的，备选视频封面确定模块还具体用于根据预设的亮度计算公式确定与各所述视频图像帧分别对应的图像亮度，并对所述图像亮度进行归一化，得到各所述视频图像帧分别对应的图像亮度指标值；根据预设的算子确定与各所述视频图像帧对应的梯度方差，并对所述梯度方差进行归一化，得到与各所述视频图像帧分别对应的图像清晰度指标值；分别将各所述视频图像帧转换为目标灰度图像，并确定与所述目标灰度图像对应的灰度分布直方图；按照设定顺序对所述灰度分布直方图各区间内的像素值进行排序，将满足预设条件的各目标区间内的像素值占各所述视频图像帧全部像素值的比例，确定为与各所述视频图像帧分别对应的图像颜色均匀度指标值。

在本实施例的一个可选实现方式中，所述图像质量描述指标，还包括：图像美学质量；相应的，备选视频封面确定模块，还具体用于获取公开的美学评估数据集，并使用所述美学评估数据集对设定的第一机器学习模型进行训练，得到美学评估模型；分别将各所述视频图像帧输入至所述美学评估模型中，得到与各所述视频图像帧分别对应的图像美学质量指标值。

在本实施例的一个可选实现方式中，所述图像质量描述指标，还包括：人脸维度；相应的，备选视频封面确定模块还具体用于获取公开的人脸数据集，并使用所述人脸数据集对设定的第二机器学习模型进行训练，得到人脸检测模型；所述人脸检测模型用于对人脸以及人脸关键点的检测；分别将各所述视频图像帧输入至所述人脸检测模型中，得到与各所述视频图像帧分别对应的不同人脸特征维度的输出结果；所述人脸特征维度包括：人脸位置、人脸大小、人脸角度以及人脸表情；分别为各所述人脸特征维度分配权重值，并根据各权重值计算得到与各所述视频图像帧分别对应的人脸维度指标值。

在本实施例的一个可选实现方式中，备选视频封面确定模块，还包括：视频图像帧聚类簇滤除模块，用于确定各所述视频图像帧聚类簇所包含的视频图像帧的数量；当目标视频图像帧聚类簇所包含的视频图像帧的数量小于设定数量阈值时，滤除所述目标视频图像帧聚类簇。

在本实施例的一个可选实现方式中，备选视频封面确定模块，还包括：动态视频封面生成模块，用于响应于客户端针对目标备选视频封面发送的动态视频封面生成请求，获取与所述目标备选视频封面匹配的目标视频图像帧聚类簇；在所述目标视频图像帧聚类簇中，筛选与所述目标备选视频封面匹配的前后关联视频帧；将所述目标备选视频以及各所述前后关联视频帧，组合得到与所述目标备选视频封面匹配的动态视频封面。

本发明实施例所提供的视频封面的生成装置可执行本发明任意实施例所提供的视频封面的生成方法，具备执行方法相应的功能模块和有益效果。

实施例七

图8为本发明实施例七提供的一种电子设备的结构示意图，如图8所示，该电子设备包括处理器80、存储器81、输入装置82和输出装置83；电子设备中处理器80的数量可以是一个或多个，图8中以一个处理器80为例；电子设备中的处理器80、存储器81、输入装置82和输出装置83可以通过总线或其他方式连接，图8中以通过总线连接为例。

存储器81作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的视频封面的推荐方法对应的程序指令/模块(例如，视频封面的推荐装置中的目标视频文件获取模块610、视频图像帧聚类簇形成模块620以及备选视频封面确定模块630)，或者如本发明实施例中的视频封面的生成方法对应的程序指令/模块(例如，视频封面的生成装置中的目标视频文件接收模块710、备选视频封面确定模块720以及视频封面形成模块730)。处理器80通过运行存储在存储器81中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的视频封面的推荐方法，或者视频封面的生成方法。

存储器81可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器81可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器81可进一步包括相对于处理器80远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置82可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置83可包括显示屏等显示设备。

实施例八

本发明实施例六还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种视频封面的推荐方法，或者视频封面的生成方法，视频封面的推荐方法包括：获取客户端上传的目标视频文件，并解码得到与获取到的文件内容匹配的各视频图像帧；根据不同视频图像帧之间的图像相似度，形成至少一个视频图像帧聚类簇，其中，一个视频图像帧聚类簇用于描述目标视频文件中一个独立完整的视频场景；确定与每个视频图像帧聚类簇分别对应的备选视频封面，并将各所述备选视频封面反馈至所述客户端。

视频封面的生成方法，包括：接收客户端上传的目标视频文件；确定与所述目标视频文件对应的多个备选视频封面，并将各所述备选视频封面反馈至所述客户端；接收客户端反馈的目标备选视频封面，并根据所述目标备选视频封面形成与所述目标视频文件对应的视频封面。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的视频封面的推荐方法，或者视频封面的生成方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述视频封面的推荐装置，或者视频封面的生成装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频封面的推荐方法，其特征在于，包括：

获取客户端上传的目标视频文件，并解码得到与获取到的文件内容匹配的各视频图像帧；

根据不同视频图像帧之间的图像相似度，形成至少一个视频图像帧聚类簇，其中，一个视频图像帧聚类簇用于描述目标视频文件中一个独立完整的视频场景；

确定与每个视频图像帧聚类簇分别对应的备选视频封面，并将各所述备选视频封面反馈至所述客户端。

2.根据权利要求1所述的方法，其特征在于，获取客户端上传的目标视频文件，包括：

响应于客户端对目标视频文件的分片上传请求，获取与所述目标视频文件匹配的分片属性信息；所述分片属性信息包括：目标视频文件中各视频分片的存储地址；

分别根据各所述存储地址，依次获取目标视频文件的各视频分片。

3.根据权利要求1所述的方法，其特征在于，根据不同视频图像帧之间的图像相似度，形成多个视频图像帧聚类簇，包括：

分别对各视频图像帧进行至少一个特征维度的特征提取，并根据特征提取结果，形成与各视频图像帧分别对应的特征向量；

根据各视频图像帧的特征向量，对各视频图像帧进行聚类处理，得到多个视频图像帧聚类簇。

4.根据权利要求3所述的方法，其特征在于，所述特征维度包括：归一化颜色直方图特征维度、归一化梯度大小直方图特征维度以及归一化梯度方向直方图特征维度；

相应的，所述分别对各视频图像帧进行至少一个特征维度的特征提取，并根据特征提取结果，形成与各视频图像帧分别对应的特征向量，包括：将当前视频图像帧的图像尺寸缩放至目标图像尺寸，得到当前视频图像帧的归一化图像；

对所述归一化图像进行归一化颜色直方图特征维度的特征提取，得到归一化颜色直方图特征；

对所述归一化图像进行归一化梯度大小直方图特征维度的特征提取，得到归一化梯度大小直方图特征；

对所述归一化图像进行归一化梯度方向直方图特征维度的特征提取，得到归一化梯度方向直方图特征；将所述归一化颜色直方图特征、所述归一化梯度大小直方图特征以及所述归一化梯度方向直方图特征进行特征拼接，得到与所述当前视频图像帧匹配的特征向量。

5.根据权利要求4所述的方法，其特征在于，所述对所述归一化图像进行归一化颜色直方图特征维度的特征提取，得到归一化颜色直方图特征，包括：

将所述归一化图像转换至HSV颜色空间，并将所述HSV颜色空间中的各颜色通道平均分为至少两个灰度区间；

统计各所述灰度区间内的像素数量，并根据各所述像素数量确定与所述当前视频图像帧对应的归一化颜色直方图特征。

6.根据权利要求4所述的方法，其特征在于，所述对所述归一化图像进行归一化梯度大小直方图特征维度的特征提取，得到归一化梯度大小直方图特征，包括：

将所述归一化图像转换为灰度图像，并计算所述灰度图像在垂直方向的梯度值，以及竖直方向的梯度值；

根据所述灰度图像在垂直方向的梯度值，以及竖直方向的梯度值确定与所述当前视频图像帧对应的归一化梯度大小直方图。

7.根据权利要求6所述的方法，其特征在于，所述对所述归一化图像进行归一化梯度方向直方图特征维度的特征提取，得到归一化梯度方向直方图特征，包括：

根据所述灰度图像在垂直方向的梯度值，以及竖直方向的梯度值确定梯度方向；

根据所述梯度方向确定与所述当前视频图像帧对应的归一化梯度方向直方图。

8.根据权利要求1所述的方法，其特征在于，确定与每个视频图像帧聚类簇分别对应的备选视频封面，包括：

获取当前视频图像帧聚类簇中的每个视频图像帧分别对应的至少一项图像质量描述指标的指标值；

根据各图像质量描述指标的指标值，计算与每个视频图像帧分别对应的图像质量评分；

在所述当前视频图像帧聚类簇中，筛选得到图像质量评分满足评分阈值条件的至少一个备选视频封面。

9.根据权利要求8所述的方法，其特征在于，所述图像质量描述指标，包括：图像亮度、图像清晰度以及图像颜色均匀度；

相应的，所述获取当前视频图像帧聚类簇中的每个视频图像帧分别对应的至少一项图像质量描述指标的指标值，包括：

根据预设的亮度计算公式确定与各所述视频图像帧分别对应的图像亮度，并对所述图像亮度进行归一化，得到各所述视频图像帧分别对应的图像亮度指标值；

根据预设的算子确定与各所述视频图像帧对应的梯度方差，并对所述梯度方差进行归一化，得到与各所述视频图像帧分别对应的图像清晰度指标值；

分别将各所述视频图像帧转换为目标灰度图像，并确定与所述目标灰度图像对应的灰度分布直方图；

按照设定顺序对所述灰度分布直方图各区间内的像素值进行排序，将满足预设条件的各目标区间内的像素值占各所述视频图像帧全部像素值的比例，确定为与各所述视频图像帧分别对应的图像颜色均匀度指标值。

10.根据权利要求9所述的方法，其特征在于，所述图像质量描述指标，还包括：图像美学质量；

相应的，所述获取当前视频图像帧聚类簇中的每个视频图像帧分别对应的至少一项图像质量描述指标的指标值，还包括：

获取公开的美学评估数据集，并使用所述美学评估数据集对设定的第一机器学习模型进行训练，得到美学评估模型；

分别将各所述视频图像帧输入至所述美学评估模型中，得到与各所述视频图像帧分别对应的图像美学质量指标值。

11.根据权利要求9所述的方法，其特征在于，所述图像质量描述指标，还包括：人脸维度；

获取公开的人脸数据集，并使用所述人脸数据集对设定的第二机器学习模型进行训练，得到人脸检测模型；所述人脸检测模型用于对人脸以及人脸关键点的检测；

分别将各所述视频图像帧输入至所述人脸检测模型中，得到与各所述视频图像帧分别对应的不同人脸特征维度的输出结果；所述人脸特征维度包括：人脸位置、人脸大小、人脸角度以及人脸表情；

分别为各所述人脸特征维度分配权重值，并根据各权重值计算得到与各所述视频图像帧分别对应的人脸维度指标值。

12.根据权利要求8所述的方法，其特征在于，所述根据各图像质量描述指标的指标值，计算与每个视频图像帧分别对应的图像质量评分，包括：

分别为各所述图像质量描述指标分配权重值，依次将与目标视频图像帧对应的各图像质量描述指标的指标值与其对应的目标权重值相乘，并将各乘积结果相加，得到与目标视频图像帧对应的图像质量评分。

13.根据权利要求1所述的方法，其特征在于，在形成至少一个视频图像帧聚类簇之后，还包括：

确定各所述视频图像帧聚类簇所包含的视频图像帧的数量；

当目标视频图像帧聚类簇所包含的视频图像帧的数量小于设定数量阈值时，滤除所述目标视频图像帧聚类簇。

14.根据权利要求1-13中任一项所述的方法，其特征在于，在将各所述备选视频封面反馈至所述客户端之后，还包括：

响应于客户端针对目标备选视频封面发送的动态视频封面生成请求，获取与所述目标备选视频封面匹配的目标视频图像帧聚类簇；

在所述目标视频图像帧聚类簇中，筛选与所述目标备选视频封面匹配的前后关联视频帧；

将所述目标备选视频以及各所述前后关联视频帧，组合得到与所述目标备选视频封面匹配的动态视频封面。

15.一种视频封面的生成方法，其特征在于，包括：

接收客户端上传的目标视频文件；

确定与所述目标视频文件对应的多个备选视频封面，并将各所述备选视频封面反馈至所述客户端；

接收客户端反馈的目标备选视频封面，并根据所述目标备选视频封面形成与所述目标视频文件对应的视频封面。

16.一种视频封面的推荐装置，其特征在于，包括：

目标视频文件获取模块，用于获取客户端上传的目标视频文件，并解码得到与获取到的文件内容匹配的各视频图像帧；

视频图像帧聚类簇形成模块，用于根据不同视频图像帧之间的图像相似度，形成至少一个视频图像帧聚类簇，其中，一个视频图像帧聚类簇用于描述目标视频文件中一个独立完整的视频场景；

备选视频封面确定模块，用于确定与每个视频图像帧聚类簇分别对应的备选视频封面，并将各所述备选视频封面反馈至所述客户端。

17.一种视频封面的生成装置，其特征在于，包括：

目标视频文件接收模块，用于接收客户端上传的目标视频文件；

备选视频封面确定模块，用于确定与所述目标视频文件对应的多个备选视频封面，并将各所述备选视频封面反馈至所述客户端；

视频封面形成模块，用于接收客户端反馈的目标备选视频封面，并根据所述目标备选视频封面形成与所述目标视频文件对应的视频封面。

18.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-14中任一所述的视频封面的推荐方法，或者权利要求15所述的视频封面的生成方法。

19.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-14中任一所述的视频封面的推荐方法，或者权利要求15所述的视频封面的生成方法。