CN114741559A

CN114741559A - 确定视频封面的方法、设备及存储介质

Info

Publication number: CN114741559A
Application number: CN202210277155.4A
Authority: CN
Inventors: 聂鑫; 黄均昕; 魏旭东; 董治; 姜涛
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-07-12

Abstract

本申请公开了一种确定视频封面的方法、设备及存储介质，属于互联网技术领域。所述方法包括：获取待确定视频封面的目标视频；对所述目标视频包括的各视频帧进行低质滤除处理，得到所述低质滤除处理后的第一视频帧；对所述第一视频帧进行人脸检测，确定所述第一视频帧中包括人脸图像的第二视频帧；对所述第二视频帧中的人脸图像的人脸状态进行打分处理，得到所述人脸图像对应的人脸状态分；基于所述第二视频帧中的人脸图像对应的人脸状态分，确定所述目标视频的视频封面。采用本申请能够提高确定视频封面的灵活性。

Description

确定视频封面的方法、设备及存储介质

技术领域

本申请涉及互联网技术领域，特别涉及一种确定视频封面的方法、设备及存储介质。

背景技术

随着互联网技术的发展，各种视频类应用程序(如短视频应用程序)越来越火爆。用户可以在视频类应用程序中观看各种视频，也可以将自己拍摄、剪辑的视频上传至视频类应用程序，提供给其他用户进行观看。

在视频类应用程序的视频中显示有视频推荐页面，视频推荐页面中显示有不同的视频封面，用户可以根据显示的视频封面选择需要观看的视频。

在相关技术中，视频封面可由用户设置，例如用户可在上传的视频中选择一个视频帧作为视频封面。如果用户未设置视频封面，则在视频类应用程序中可将用户上传的视频中第一个视频帧确定为视频封面进行显示。但视频中的第一个视频帧不一定能够对相应的视频进行展示，可见当前确定视频封面的方式不够灵活。

发明内容

本申请实施例提供了一种确定视频封面的方法、设备及存储介质，能够提高确定视频封面的灵活性。所述技术方案如下：

第一方面、提供了一种确定视频封面的方法，所述方法包括：

获取待确定视频封面的目标视频；

对所述目标视频包括的各视频帧进行低质滤除处理，得到所述低质滤除处理后的第一视频帧；

对所述第一视频帧进行人脸检测，确定所述第一视频帧中包括人脸图像的第二视频帧；

对所述第二视频帧中的人脸图像的人脸状态进行打分处理，得到所述人脸图像对应的人脸状态分；

基于所述第二视频帧中的人脸图像对应的人脸状态分，确定所述目标视频的视频封面。

可选的，所述对所述目标视频包括的各视频帧进行低质滤除处理，得到所述低质滤除处理后的第一视频帧，包括：

对所述目标视频包括的各视频帧进行聚类处理，得到多个视频帧集合，其中，每个视频帧集合中包括的视频帧属于相同的视频帧类别；

对于每个视频帧集合，计算所述视频帧集合中每个视频帧对应的清晰度，将对应清晰度最高的视频帧，确定为第一视频帧。

可选的，所述对所述第二视频帧中的人脸图像的人脸状态进行打分处理，得到所述人脸图像对应的人脸状态分，包括：

确定所述第二视频帧中的人脸图像对应的人脸属性分，并确定所述人脸图像在所述第二视频帧中的人脸构图分；

对所述第二视频帧中的人脸图像对应的人脸属性分、人脸构图分进行加权计算，得到所述第二视频帧对应的人脸状态分。

可选的，所述人脸属性分包括面部仪态分，所述确定所述第二视频帧中的人脸图像对应的人脸属性分，包括：

获取所述第二视频帧中的人脸图像的眼部关键点和嘴部关键点；

基于所述眼部关键点和嘴部关键点分别计算眼部闭合指示值和嘴部闭合指示值；

对所述眼部闭合指示值和所述嘴部闭合指示值进行加权计算，得到所述第二视频帧中的人脸图像对应的面部仪态分。

可选的，所述基于所述眼部关键点和嘴部关键点分别计算眼部闭合指示值和嘴部闭合指示值，包括：

计算左眼角关键点和右眼角关键点之间的第一距离，计算上眼睑关键点与对应的下眼睑关键点之间的第二距离；

基于所述第一距离与所述第二距离的比值，确定眼部闭合指示值；

计算左嘴角关键点和右嘴角关键点之间的第三距离，计算上嘴唇关键点与对应的下嘴唇关键点之间的第四距离；

基于所述第三距离与所述第四距离的比值，确定嘴部闭合指示值。

可选的，所述人脸属性分包括面部表情分，所述确定所述第二视频帧中的人脸图像对应的人脸属性分，包括：

将所述第二视频帧中的人脸图像输入至表情识别模型，得到所述人脸图像对应的目标表情；

基于表情与表情分的对应关系，确定所述目标表情对应的面部表情分。

可选的，所述确定所述人脸图像在第二视频帧中的人脸构图分，包括：

确定所述人脸图像相对于所述第二视频帧的中心点的相对位置，并确定人脸图像在所述第二视频帧中的面积占比；

基于所述相对位置与所述面积占比，计算所述第二视频帧中的人脸图像对应的人脸构图分。

可选的，所述基于所述第二视频帧中的人脸图像对应的人脸状态分，确定所述目标视频的视频封面，包括：

确定第二视频帧中包括至少一个人脸图像在所述第二视频帧中的出现频次；

确定所述出现频次最高的目标人脸图像；

将包括所述目标人脸图像且对应所述人脸状态分最高的第二视频帧，确定为所述目标视频的视频封面。

确定所述第二视频帧对应图像质量分；

对所述第二视频帧对应的图像质量分以及人脸状态分进行加权计算，得到所述第二视频帧对应的视频封面排序分；

将对应所述视频封面排序分最高的第二视频帧，确定为所述目标视频的视频封面。

第二方面、提供了一种确定视频封面的装置，所述装置包括：

获取模块，用于获取待确定视频封面的目标视频；

滤除模块，用于对所述目标视频包括的各视频帧进行低质滤除处理，得到所述低质滤除处理后的第一视频帧；

确定模块，用于对所述第一视频帧进行人脸检测，确定所述第一视频帧中包括人脸图像的第二视频帧；

打分模块，用于对所述第二视频帧中的人脸图像的人脸状态进行打分处理，得到所述人脸图像对应的人脸状态分；

确定模块，用于基于所述第二视频帧中的人脸图像对应的人脸状态分，确定所述目标视频的视频封面。

可选的，所述滤除模块，用于：

可选的，所述打分模块，用于：

可选的，所述人脸属性分包括面部仪态分，所述打分模块，用于：

可选的，所述打分模块，用于：

可选的，所述人脸属性分包括面部表情分所述打分模块，用于：

可选的，所述打分模块，用于：

可选的，所述确定模块，用于：

确定所述出现频次最高的目标人脸图像；

可选的，所述确定模块，用于：

确定所述第二视频帧对应图像质量分；

第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上第一方面所述的确定视频封面的方法所执行的操作。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上第一方面所述的确定视频封面的方法所执行的操作。

第五方面，提供了一种计算机程序产品，所述计算机程序产品中包括至少一条指令，所述至少一条指令由处理器加载并执行以实现如上第一方面所述的确定视频封面的方法所执行的操作。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例通过对目标视频中的各视频帧进行低质滤除处理，对低质滤除处理后得到的第一视频帧进行人脸检测，确定包括人脸图像的第二视频帧，然后对第二视频帧中的包括人脸图像中的人脸状态进行打分处理，最后根据第二视频帧中的人脸图像对应的人脸状态分，选取目标视频的视频封面。可见本申请并不是简单的将目标视频中的第一个视频帧确定为视频封面，能够提高确定视频封面的灵活性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种确定视频封面的方法流程图；

图2是本申请实施例提供的一种确定视频封面的方法流程图；

图3是本申请实施例提供的一种确定视频封面的方法示意图；

图4是本申请实施例提供的一种确定视频封面的方法示意图；

图5是本申请实施例提供的一种确定视频封面的方法示意图；

图6是本申请实施例提供的一种确定视频封面的方法流程图；

图7是本申请实施例提供的一种确定视频封面的装置结构示意图；

图8是本申请实施例提供的一种计算机结构示意图；

图9是本申请实施例提供的一种计算机结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请提供的一种确定视频封面的方法可以由计算机设备实现。在计算机设备中可具备处理器和存储器。其中，存储器中可存储有待确定视频封面的视频、用于实现确定视频封面的方法对应的程序代码，处理器可以加载并执行存储器中用于实现确定视频封面的方法的程序代码，并对存储的待确定视频封面的视频进行处理，进而确定相应视频的视频封面。

在一种可能的情况中，该计算机设备可以为终端。当该计算机设备为终端时，终端中可以运行有视频类应用程序(例如短视频应用程序)，终端可以具备摄像头、麦克风、耳机等部件，终端具有通信功能，可以接入互联网，终端可以是手机、平板电脑、智能穿戴设备、台式计算机、笔记本电脑等。

在一种可能的情况中，该计算机设备可以为服务器。当该计算机设备为服务器时，该服务器可以是上述视频类应用程序的后台服务器，服务器可以与终端建立通信。该服务器可以是一个单独的服务器也可以是一个服务器组，如果是单独的服务器，该服务器可以负责下述方案中的所有处理，如果是服务器组，服务器组中的不同服务器分别可以负责下述方案中的不同处理，具体的处理分配情况可以由技术人员根据实际需求任意设置，此处不再赘述。

随着互联网技术的发展，各种视频类应用程序(如短视频应用程序)越来越火爆。用户可以通过视频类应用程序拍摄视频并上传至网络供其他用户观看。其中，用户上传的视频可称为UGC(User Generated Content，用户原创内容)视频。

视频封面对一个UGC视频的浏览量具有着重要的影响。选择一个质量较高的视频封面，能够在一定程度上提高UGC视频的浏览量。但随着视频类应用程序的发展，每天都有大量的用户产生数以百万的UGC视频。通过人工为每个视频帧选择视频封面已无法实现。因此如何自动为UGC视频选择适合的视频封面，已成为短视频领域中亟需解决的技术问题。本申请实施例提供的确定视频封面的方法，可以为在视频(如UGC视频)包括的各视频帧中选取一个合适的视频帧作为该视频的视频封面，能够提高确定视频封面的灵活性，对于确定的视频封面能够更好的展示相应视频中的内容。

图1是本申请实施例提供的了一种确定视频封面的方法流程图，参见图1，该方法包括：

步骤101、获取待确定视频封面的目标视频。

本申请实施例提供的确定视频封面的方法可以由终端或服务器实现。当该方法由终端实现时，终端中可运行有视频类应用程序，待确定视频封面的目标视频可以是用户通过终端运行的视频类应用程序进行拍摄之后得到的视频，或者可以是由其他终端或服务器发送的视频。例如用户通过短视频应用程序拍摄一段短视频之后，用户可以手动的在短视频应用程序中为拍摄的短视频添加的视频封面，或者用户可以在短视频应用程序选择自动生成视频封面。当用户在短视频应用程序中选择自动生成视频封面后，其拍摄的短视频即为待确定视频封面的目标视频。当该方法由服务器实现时，待确定视频封面的目标视频是用户的终端上传，或由是接收的其他数据服务器发送的视频。例如用户通过短视频应用程序拍摄一段短视频之后，用户可以在短视频应用程序选择自动生成视频封面。然后终端可以将用户拍摄的短视频发送至服务器，同时向服务器发送对应生成视频封面请求。服务器在收到终端发送的短视频以及对应的生成视频封面请求后，可以将接收到的短视频确定为待确定视频封面的目标视频。

本方法流程中步骤101-105的处理均可以由终端或服务器执行，下文不再进行赘述。另外，在本申请中获取的目标视频中的视频主角可以为人，也就是在目标视频中存在有大量的人脸图像。

步骤102、对目标视频包括的各视频帧进行低质滤除处理，得到低质滤除处理后的第一视频帧。

服务器或终端在获取目标视频之后，可以先对目标视频中的各视频帧进行低质滤除处理。例如可以确定目标视频中每个视频帧对应的清晰度、亮度、色彩信息等参数，根据检测到的每个视频帧对应的参数，滤除清晰度低、亮度低和均色的视频帧。对于低质滤除处理之后剩余的视频帧可称为第一视频帧。如此经过低质滤除处理，可以降低待确定视频封面的视频帧数量，提高后续确定视频封面的效率。

在一种可能的情况中，本申请实施例还提供了一种低质滤除处理的方法，参见图2，该方法包括：

步骤1021、对目标视频包括的各视频帧进行聚类处理，得到多个视频帧集合。

一个视频中一般包括多个不同的视频场景，例如目标视频是由多个视频段(子镜头)拼接得到的。其中在每个子镜头对应的多个视频场景中包括的画面内容比较接近。由于视频封面是在目标视频对应的多个视频帧中选取的，该视频封面应存在于目标视频对应的一个子镜头中。因此可以先确定每个子镜头对应的适合作为视频封面的候选视频帧(第一视频帧)，也就是滤除其他质量较低的视频帧，对于每个子镜头仅保留一个质量较好的视频帧，作为视频封面的候选视频帧，然后在各候选视频帧中确定视频封面。

由于一个视频场景中包括的画面内容比较接近，所以在本申请中，可以通过聚类算法确定每个视频场景对应的视频帧。其中，聚类算法可采用k均值聚类算法(k-meansclustering algorithm)。需要说明的是，在本申请中，可以先根据目标视频中每个视频帧对应的参数，对目标视频中的各视频帧进行初步低质滤除处理。然后对初步低质滤除处理后剩余的视频帧，再通过聚类算法进行计算，进行之后的低质滤除处理。

具体的，可以将目标视频帧中包括的子镜头的个数设置为聚类个数，然后由聚类算法对待进行聚类的视频帧进行计算，得到多个视频帧集合。得到的每个视频帧集合包括的各视频帧属于相同的视频帧类别，也就是属于同一个子镜头。

步骤1022、对于每个视频帧集合，计算视频帧集合中每个视频帧对应的清晰度，将对应清晰度最高的视频帧，确定为第一视频帧。

由于拍摄视频时，镜头的运动或视频中人物的运动导致目标视频中的视频帧可能存在不同程度的模糊，且在视频压缩的过程中运动补偿也会导致视频帧出现模糊的情况。因此可以检测视频帧集合中每个视频帧对应的清晰度，将对应清晰度最高的视频帧，确定为对该视频帧集合进行低质滤除处理剩余的视频帧。

由于高运动能量的视频帧会变得模糊，低运动能量的视频帧会相对更清晰，因此在本申请中可以通过检测视频帧的运动能量值，选择视频帧集合中清晰度最高的视频帧。进一步的处理包括：在得到视频帧集合后，对于视频帧集合中的每个视频帧，计算其与相邻视频帧间的像素差平方和的倒数，计算得到的值即为对应视频帧的运动能量值。对于每个视频帧集合，可以将运动能量值最低的视频帧，确定为第一视频帧。通过将运动能量值最低的视频帧确定为第一视频帧，得到的第一视频帧不仅在清晰度上相对较高，且第一视频帧中的画面相对静止，更适合作为视频封面。

步骤103、对第一视频帧进行人脸检测，确定第一视频帧中包括人脸图像的第二视频帧。

在选择视频封面时，一般倾向于将包括视频中人物图像的视频帧确定为视频封面。例如，目标视频为用户演唱歌曲的短视频，则确定的视频封面中可以现有用户正在演唱歌曲的图像。因此在确定各第一视频帧之后，可以再对第一视频帧进行人脸检测，确定第一视频帧中包括人脸图像的第二视频帧。其中，对第一视频帧进行人脸检测，可通过现有的人脸识别模型实现，例如RetinaFace(一种人脸检测算法)。

步骤104、对第二视频帧中的人脸图像的人脸状态进行打分处理，得到人脸图像对应的人脸状态分。

在得到第二视频帧后，可以对第二视频帧中的人脸图像进行打分处理。例如可以将第二视频帧中的人脸图像进行打分处理输入至预先训练的人脸图像打分模型，得到每个第二视频帧对应的人脸状态分。

在一种情况中，人脸状态分可包括人脸属性分和人脸构图分。其中，人脸属性分可用于指示人脸美观程度，例如颜值越高人脸属性分就越高，人脸为开心的表情比无表情的人脸属性分高。人脸构图分用于指示人脸图像在视频帧中构图是否合适。例如，人脸图像越靠近视频帧的边缘对应的人脸构图分就越低。因此，对于每个第二视频帧，可以确定第二视频帧中的人脸图像对应的人脸属性分和人脸构图分，然后根据人脸属性分、人脸构图分进行加权计算，得到对应的人脸状态分。

其中，对于人脸属性分、人脸构图分分别对应的权重系数可以由技术人员预先设置。对于确定人脸属性分可以通过人脸图像对应的颜值分、面部表情分以及面部仪态分计算得到。

对于人脸图像对应的颜值分可以将人脸图像输入至预先训练的人脸颜值模型中，由人脸颜值模型输出人脸图像对应的颜值分。对于人脸图像对应的表情分可以将人脸图像输入至预先训练的表情识别模型，由表情识别模型输出识别到的表情(即人脸图像对应的目标表情)。例如，表情识别模型可以识别到六种表情，包括生气、厌恶、害怕、高兴、悲伤、惊讶等。对于每种表情，可以预先设置对应的表情分。在人脸表情模型输出人脸图像对应的表情后，可根据预先设置的表情与表情分的对应关系，确定识别到的人脸图像中人脸的目标表情对应的表情分。对于确定人脸图像对应的面部仪态分此处先不进行介绍。

步骤105、基于第二视频帧中的人脸图像对应的人脸状态分，确定目标视频的视频封面。

在得到每个第二视频帧中对应的人脸状态分后，可以将人脸状态分最高的第二视频帧确定为标视频的视频封面。如此，在本申请中，可以根据目标视频中各视频帧中的人脸图像作为选择视频封面的参考信息，能够提高确定视频封面的灵活性。

在一种可能的情况中，步骤105的处理还可以如下：

确定第二视频帧中包括至少一个人脸图像在第二视频帧中的出现频次；确定出现频次最高的目标人脸图像；将包括目标人脸图像且对应人脸状态分最高的第二视频帧，确定为目标视频的视频封面。

一般情况下，视频封面出现的视频人物应该为目标视频中的视频主角。例如目标视频为歌曲比赛类视频，则目标视频中的视频主角中的应该为参赛演唱歌曲的选手，而不是评委。因此，在本申请中，还可以确定目标视频中的视频主角，然后将包括视频主角且对应人脸状态分最高的第二视频帧确定为目标视频的视频封面。

对于视频主角在目标视频中的出现频次要高于其他视频人物在目标视频中的出现频次。因此可以检测目标视频每个人脸图像在第二视频帧中的出现频次，将出现频次最高的目标人脸图像确定为视频主角的人脸图像。在一种可能中，确定人脸图像在第二视频帧中的出现频次的处理可以如下：

可以将每个第二视频帧中的人脸图像输入到人脸识别模型中，得到人脸图像对应的人脸特征向量。对于一个第二视频帧，可以计算该第二视频帧中人脸图像对应的人脸特征向量与其他第二视频帧中的人脸图像对应的人脸特征向量的欧式距离或余弦相似度等，得到该第二视频帧中人脸图像与其他第二视频帧中的人脸图像的相似度。这样得到的各相似度中大于预设的相似度阈值的相似度的个数，即为该第二视频帧中人脸图像在目标视频中的出现频次。按照如上方法，可以得到每个第二视频帧中人脸图像在目标视频中的出现频次。如果任意两个第二视频帧中包括的第二视频帧对应的人脸图像属于同一个人，则该两个第二视频帧对应的出现频次应该相同。因此对应出现频次最高的第二视频帧为包括的视频主角人脸图像的视频帧。如此对每个第二视频帧都与其他的第二视频帧计算对应的人脸图像的相似度，还可以在一定程度上提高确定人脸图像在第二视频帧中出现频次的准确性。

例如，目标视频为歌曲比赛类视频，其中，在对目标视频中的第二视频帧中每个人脸图像出现的频次后，可根据第二视频帧中的人脸图像的出现频次，对各个第二视频帧进行排序。如图3所示，视频帧1-视频帧9为经过排序后的第二视频帧，视频帧1-视频帧6对应的人脸图像为选手的人脸图像，视频帧7-视频帧9对应的人脸图像为评委的人脸图像。如果选手的人脸图像的出现频次大于评委的人脸图像的出现频次，且视频帧1中人脸图像的人脸状态分最高，则可以将视频帧1确定为目标视频的视频封面。

在一种可能的情况中，步骤105的处理还可以如下：

确定第二视频帧对应图像质量分；对第二视频帧对应的图像质量分以及人脸状态分进行加权计算，得到第二视频帧对应的视频封面排序分；将对应视频封面排序分最高的第二视频帧，确定为目标视频的视频封面。

在选取目标视频的视频封面时，除了可以参考第二视频帧对应的人脸状态分之外，还可以参考第二视频帧对应图像质量分。对于每个第二视频帧，可以通过检测第二视频帧的清晰度、分辨率等计算图像质量分。其中，第二视频帧的清晰度越高对应的图像质量分越高，第二视频帧的分辨率越高对应的图像质量分越高。例如可以对检测到的第二视频帧的清晰度、分辨率进行加权计算得到，第二视频帧对应的图像质量分。其中清晰度和分辨率分别对应的权重系数可以由技术人员预先设置。

在得到第二视频帧对应图像质量分、人脸状态分之后，可以对第二视频帧对应图像质量分、人脸状态分进行加权计算，得到第二视频帧对应的视频封面排序分，然后可以将第二视频帧中对应视频封面排序分最高的视频帧作为目标视频的视频封面。在一种可能的情况中，还可以将出现视频主角人脸图像的第二视频帧中对应视频封面排序分最高的视频帧作为目标视频的视频封面。

对于上述步骤104中，确定第二视频帧中的人脸图像对应的面部仪态分的处理可以如下：

获取第二视频帧中的人脸图像对应的人脸关键点；根据人脸关键点中包括的眼部关键点计算眼部闭合指示值；根据人脸关键点中包括的嘴部关键点计算嘴部闭合指示值；对眼部闭合指示值和嘴部闭合指示值进行加权计算，得到第二视频帧中的人脸图像对应的面部仪态分。

由于在目标视频中可能出现人物面部仪态不美观的情形，例如视频中的人物出现闭眼、张大嘴等情况，将此类视频帧确定为视频封面，会影响视频封面美观。因此在本申请中，可以根据第二视频帧中的人脸图像对应的人脸关键点，计算第二视频帧中的人脸图像对应的面部仪态分，滤除出现面部仪态不美观的第二视频帧。

在步骤103中，在对第一视频帧进行人脸检测后，可以得到第二视频帧中人脸图像中人脸对应的106个关键点位置。因此可以通过该106个关键点信息，计算第二视频帧中的人脸图像对应的面部仪态分，进一步处理可包括：

(1)根据人脸的106个关键点信息中的眼部关键点，计算眼部闭合指示值：

参见图4，对于一个人脸图像，可以获取该人脸图像对应的眼部关键点，以下为左眼的眼部关键点对应的编号和名称：

e1:left_eye_left_corner、e2:left_eye_upper_left_quarter、e3：left_eye_top、e4:left_eye_upper_right_quarter、e5:left_eye_right_corner、e6:left_eye_lower_right_quarter、e7:left_eye_bottom、e8:left_eye_lower_left_quarter。

根据眼部关键点计算眼部闭合指示值的处理如下：计算左眼角关键点和右眼角关键点之间的第一距离，计算上眼睑关键点与对应的下眼睑关键点之间的第二距离；基于第一距离与第二距离的比值，确定眼部闭合指示值。

由于眼睛闭合的过程中，两个眼角之间的距离不会变，但上下两个眼睑之间的距离会越来越近。因此可以将上下两个眼睑之间的距离与两个眼角之间距离的比值确定眼部闭合指示值。对于两个眼角之间的距离可以通过左眼角关键点和右眼角关键点(e1、e5)计算，上下两个眼睑之间的距离可以通过上眼睑关键点(e2、e3、e4)和下眼睑关键点(e6、e7、e8)计算。计算人眼闭合参数(即眼部闭合指示值)的公式如下：

其中，e为人眼闭合参数，e1、e2、e3、e3、e4、e5、e6、e7、e8分别表示8个左眼的眼部关键点的坐标位置，||x-y||表示计算两个点的欧式距离，其中，x、y表示不同的眼部关键点的坐标位置。

(2)根据人脸的106个关键点信息中的嘴部关键点，计算嘴部闭合指示值：

参见图5，对于一个人脸图像，可以获取该人脸图像对应的嘴部关键点，以下为嘴部关键点对应的编号和名称：

m1:mouth_left_corner，m2:mouth_upper_lip_left_contour3，m3:mouth_upper_lip_left_contour4，m4:mouth_upper_lip_bottom，m5:mouth_upper_lip_right_contour3，m6:mouth_upper_lip_right_contour4，7:mouth_right_corner，m8:mouth_lower_lip_right_contour1，m9:mouth_lower_lip_top，m10:mouth_lower_lip_left_contour1。

根据嘴部关键点计算嘴部闭合指示值的处理如下：计算左嘴角关键点和右嘴角关键点之间的第三距离，计算上嘴唇关键点与对应的下嘴唇关键点之间的第四距离；基于第三距离与第四距离的比值，确定嘴部闭合指示值。

由于嘴巴闭合的过程中，两个嘴角之间的距离不会变，但上下两个嘴唇之间的距离会越来越近。因此可以将上下两个嘴唇之间的距离与两个嘴角之间距离的比值确定嘴部闭合指示值。对于两个嘴角之间的距离可以通过左嘴角关键点和右嘴角关键点(m1、m7)计算，上下两个嘴唇之间的距离可以通过上嘴唇关键点(m2、m3、m4、m5、m6)和下嘴唇关键点(m8、m9、m10)计算。计算人嘴闭合参数(即嘴部闭合指示值)的公式如下：

其中，m为人嘴闭合参数，m1、m2、m3、m3、m4、m5、m6、m7、m8、m9、m10分别表示人脸关键点10个嘴部关键点的坐标位置，||a-b||表示计算两个点的欧式距离，其中，a、b表示不同的嘴部关键点的坐标位置。

在确定人眼闭合参数为e和人嘴闭合参数为m后，可以对人眼闭合参数为e和人嘴闭合参数为m进行加权计算，得到第二视频帧中的人脸图像对应的面部仪态分。其中，人眼闭合参数与人嘴闭合参数分别对应的权重值可以由技术人员预先设定，此处不再赘述。

对于上述步骤104中，确定第二视频帧中的人脸图像对应的人脸构图分的处理如下，包括：

确定人脸图像相对于第二视频帧的中心点的相对位置，并确定人脸图像在第二视频帧中的面积占比；基于相对位置与面积占比，计算第二视频帧中的人脸图像对应的人脸构图分。

人脸图像在第二视频帧中的构图对封面视频的选择有着较大的影响。人脸过大、过小、缺失等，都会影响封面视频的美观。在本申请中可以通过人脸图像在第二视频帧中的位置以及人脸图像的面积，计算第二视频帧中的人脸图像对应的人脸构图分。

在上述步骤103中，在对第一视频帧进行人脸检测后，可以得到第二视频帧中的人脸图像的位置信息，该位置信息可以为人脸图像的外接矩形框的顶点在第二视频帧中的坐标。通过人脸图像在第二视频帧中的位置信息，可以计算人脸图像相对于第二视频帧的中心点的相对位置。例如可以根据人脸图像在第二视频帧中的位置信息计算人脸图像的中心点的位置，然后计算人脸图像的中心点的位置与第二视频帧的中心点的位置间的距离，将计算得到的距离确定为人脸图像相对于第二视频帧的中心点的相对位置。通过人脸图像在第二视频帧中的位置信息，可以计算人脸图像对应的外接矩形的面积，然后可以将人脸图像对应的外接矩形的面积与第二视频帧面积的比值确定为人脸图像在第二视频帧中的面积占比。在确定人脸图像距离第二视频帧的中心点的距离以及人脸图像在第二视频帧中的面积占比后，可以对相对位置与面积占比进行加权计算，得到第二视频帧中的人脸图像对应的人脸构图分。

图3是本申请实施例提供的一种确定目标视频的视频封面的方法流程图，参见图3，该方法包括：S1，对目标视频中进行视频帧过滤，即各视频帧的参数(包括清晰度、亮度、色彩信息等)进行检测，滤除清晰度低、亮度低和均色的视频帧。S2，确定候选视频帧，即对视频帧过滤后剩余的视频帧进行聚类处理，在聚类处理后每个类别的视频帧中的最清晰的视频帧作为候选视频帧。S3，对候选视频帧进行人脸检测。S4，对于存在人脸图像的候选视频，可以进行人脸质量评估，例如可以通过人脸图像的清晰度计算。S5，对于通过人脸质量评估的候选视频帧，可以对相应的候选视频帧进行人脸颜值/表情识别，得到候选视频帧中的视频任务颜值分/表情分；对相应的候选视频帧进行人脸识别，确定目标视频中的视频主角；对相应的候选视频帧进行人脸关键点检测，确定面部仪态分(包括对头部、眼部、嘴部等姿态的检测)；对相应的候选视频帧进行人脸目标检测，确定人脸构图；对相应的候选视频帧进行图像色彩、清晰度、构图进行识别等，确定图像的整体特征。S6，对于S3检测出的不存在人脸图像的候选视频帧以及未通过S4的人脸质量评估的候选视频帧，可对相应的候选视频帧进行图像色彩、清晰度、构图进行识别等，确定图像的整体特征。S7，通过多维度打分模块对S5、S6的对候选视频帧识别、检测结果进行综合打分，输出候选视频帧打分排序结果，其中，打分模型的处理可参照上述步骤104，在得到候选视频帧打分排序结果后，可以将排序最靠前的视频帧作为目标视频的视频封面。

本申请实施例通过对目标视频中的各视频帧进行低质滤除处理，对低质滤除处理后得到的第一视频帧进行人脸检测，确定包括人脸图像的第二视频帧，然后对第二视频帧中的包括人脸图像中的人脸状态进行打分处理，最后根据第二视频帧中的人脸图像对应的人脸状态分，选取目标视频的视频封面。可见本申请一方面相对于人工确定视频封面，能够提高确定视频封面的效率，另一方面本申请并不是简单的将目标视频中的第一个视频帧确定为视频封面，通过进行低质滤除、人脸检测等处理，能在目标视频中选出可能更好体现视频内容的封面，能够提高确定视频封面的灵活性和准确性。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图7是本申请实施例提供的一种确定视频封面的装置结构示意图，该装置可以是上述实施例中的终端或服务器，参见图7，该装置包括：

获取模块710，用于获取待确定视频封面的目标视频；

滤除模块720，用于对所述目标视频包括的各视频帧进行低质滤除处理，得到所述低质滤除处理后的第一视频帧；

确定模块730，用于对所述第一视频帧进行人脸检测，确定所述第一视频帧中包括人脸图像的第二视频帧；

打分模块740，用于对所述第二视频帧中的人脸图像的人脸状态进行打分处理，得到所述人脸图像对应的人脸状态分；

确定模块730，用于基于所述第二视频帧中的人脸图像对应的人脸状态分，确定所述目标视频的视频封面。

可选的，所述滤除模块720，用于：

可选的，所述打分模块740，用于：

可选的，所述人脸属性分包括面部仪态分，所述打分模块740，用于：

可选的，所述打分模块740，用于：

可选的，所述人脸属性分包括面部表情分，所述打分模块740，用于：

可选的，所述打分模块740，用于：

可选的，所述确定模块730，用于：

确定所述出现频次最高的目标人脸图像；

可选的，所述确定模块730，用于：

确定所述第二视频帧对应图像质量分；

需要说明的是：上述实施例提供的确定视频封面的装置在确定视频封面时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的确定视频封面的装置与确定视频封面的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本申请一个示例性实施例提供的计算机设备的结构框图。该计算机设备可以是上述实施例中的终端(后续可称终端800)。该终端800可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(moving picture experts group audio layer III，动态影像专家压缩标准音频层面3)、MP4(moving picture experts group audio layerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(digital signal processing，数字信号处理)、FPGA(field－programmable gate array，现场可编程门阵列)、PLA(programmable logic array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(central processingunit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以集成有GPU(graphics processing unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(artificial intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的确定视频封面的方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(input/output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(radio frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(wireless fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(near field communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(user interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置在终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在另一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(liquid crystal display，液晶显示屏)、OLED(organic light-emitting diode，有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(virtual reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(locationbased service，基于位置的服务)。定位组件808可以是基于美国的GPS(globalpositioning system，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时，由处理器801根据用户对显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置在终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制显示屏805的显示亮度。具体地，当环境光强度较高时，调高显示屏805的显示亮度；当环境光强度较低时，调低显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备可以是上述实施例中的服务器(后续可称服务器900)，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)901和一个或一个以上的存储器902，其中，所述存储器902中存储有至少一条指令，所述至少一条指令由所述处理器901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中添加歌词进度图像的方法。该计算机可读存储介质可以是非暂态的。例如，所述计算机可读存储介质可以是ROM(read-onlymemory，只读存储器)、RAM(random access memory，随机存取存储器)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品中包括至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述的实施例中确定视频封面的方法所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号(包括但不限于用户终端与其他设备之间传输的信号等)，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的人脸图像都是在充分授权的情况下获取的。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种确定视频封面的方法，其特征在于，所述方法包括：

获取待确定视频封面的目标视频；

2.根据权利要求1所述的方法，其特征在于，所述对所述目标视频包括的各视频帧进行低质滤除处理，得到所述低质滤除处理后的第一视频帧，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述第二视频帧中的人脸图像的人脸状态进行打分处理，得到所述人脸图像对应的人脸状态分，包括：

4.根据权利要求3所述的方法，其特征在于，所述人脸属性分包括面部仪态分，所述确定所述第二视频帧中的人脸图像对应的人脸属性分，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述眼部关键点和嘴部关键点分别计算眼部闭合指示值和嘴部闭合指示值，包括：

计算左眼角关键点和右眼角关键点之间的第一距离，计算上眼睑关键点与下眼睑关键点之间的第二距离；

计算左嘴角关键点和右嘴角关键点之间的第三距离，计算上嘴唇关键点与下嘴唇关键点之间的第四距离；

6.根据权利要求3所述的方法，其特征在于，所述人脸属性分包括面部表情分，所述确定所述第二视频帧中的人脸图像对应的人脸属性分，包括：

7.根据权利要求3所述的方法，其特征在于，所述确定所述人脸图像在所述第二视频帧中的人脸构图分，包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述第二视频帧中的人脸图像对应的人脸状态分，确定所述目标视频的视频封面，包括：

确定所述出现频次最高的目标人脸图像；

9.根据权利要求1所述的方法，其特征在于，所述基于所述第二视频帧中的人脸图像对应的人脸状态分，确定所述目标视频的视频封面，包括：

确定所述第二视频帧对应图像质量分；

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求9任一项所述的确定视频封面的方法所执行的操作。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的确定视频封面的方法所执行的操作。

12.一种计算机程序产品，其特征在于，所述计算机程序产品中包括至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的确定视频封面的方法所执行的操作。