CN113822136A

CN113822136A - 视频素材图像的选择方法、装置、设备及存储介质

Info

Publication number: CN113822136A
Application number: CN202110831155.XA
Authority: CN
Inventors: 蓝玮毓
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-12-21

Abstract

本申请公开了一种视频素材图像的选择方法、装置、设备及存储介质，涉及多媒体领域。该方法包括：获取包括视频帧的目标视频流，对视频帧进行人脸检测，得到包含人脸区域的n帧候选视频帧，对候选视频帧中的人脸区域进行表情分析，得到人脸区域的表情分析结果，基于所述表情分析结果从所述n帧候选视频帧中确定目标视频帧。通过对候选视频帧中的人脸区域进行表情分析，得到表情分析结果，从而在表情分析结果的基础上，从候选视频帧中确定出目标视频帧，作为目标视频流的代表性图像，用于生成目标视频流的封面或者目标视频流的海报图像，提高了视频素材图像的确定准确率，以及视频素材图像中的图像内容质量，提高了视频素材图像的生成效率。

Description

视频素材图像的选择方法、装置、设备及存储介质

技术领域

本申请实施例涉及多媒体领域，特别涉及一种视频素材图像的选择方法、装置、设备及存储介质。

背景技术

智能海报素材提取是指利用计算机技术对视频流提取视频帧，并通过计算机程序对其进行分析从而选择适合作为海报素材的视频帧的过程。

相关技术中，海报素材的选择过程包括对视频帧进行分析与选取，其中，首先从视频流中获取视频帧，接着对视频帧进行清晰度、色彩质量等维度的分析，综合多维度的分析结果得到每一帧视频帧的质量分，选择质量分最高的视频帧作为视频流的海报素材。

然而上述方式中，海报素材的选择依据视频帧本身的图像参数(如：清晰度、对比度、亮度等)，而图像内容出现的异常情况无法准确识别，导致确定出的视频帧内容质量较差，海报生成效率较低。

发明内容

本申请实施例提供了一种视频素材图像的选择方法、装置、设备及存储介质，能够提高在视频海报素材选择过程中海报素材的内容质量。所述技术方案如下：

一方面，提供了一种视频素材图像的选择方法，所述方法包括：

获取目标视频流，所述目标视频流中包括视频帧；

对所述视频帧进行人脸检测，得到包含人脸区域的n帧候选视频帧，n≥2且n为整数；

对所述候选视频帧中的人脸区域进行表情分析，得到所述人脸区域的表情分析结果，所述表情分析结果用于指示所述人脸区域中的人脸表情质量；

基于所述表情分析结果从所述n帧候选视频帧中确定目标视频帧，作为所述目标视频流的视频素材图像，所述视频素材图像用于作为所述目标视频流的代表性图像。

另一方面，提供了一种视频素材图像的选择装置，所述装置包括：

获取模块，用于获取目标视频流，所述目标视频流中包括视频帧；

第一检测模块，用于对所述视频帧进行人脸检测，得到包含人脸区域的n帧候选视频帧，n≥2且n为整数；

第一分析模块，用于对所述候选视频帧中的人脸区域进行表情分析，得到所述人脸区域的表情分析结果，所述表情分析结果用于指示所述人脸区域中的人脸表情质量；

第一确定模块，用于基于所述表情分析结果从所述n帧候选视频帧中确定目标视频帧，作为所述目标视频流的视频素材图像，所述视频素材图像用于作为所述目标视频流的代表性图像。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的视频素材图像的选择方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的视频素材图像的选择方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的视频素材图像的选择方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过对候选视频帧中的人脸区域进行表情分析，得到表情分析结果，从而在表情分析结果的基础上，从候选视频帧中确定出目标视频帧，作为目标视频流的代表性图像，用于生成目标视频流的封面或者目标视频流的海报图像，提高了视频素材图像的确定准确率，以及视频素材图像中的图像内容质量，提高了视频素材图像的生成效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的视频素材图像的选择过程示意图；

图3是本申请一个示例性实施例提供的视频素材图像的选择方法的流程图；

图4是本申请一个示例性实施例提供的人脸眼睛的分析过程示意图；

图5是本申请另一个示例性实施例提供的人脸眼睛的分析过程示意图；

图6是本申请一个示例性实施例提供的人脸嘴巴的分析过程示意图；

图7是本申请另一个示例性实施例提供的人脸嘴巴的分析过程示意图；

图8是本申请一个示例性实施例提供的异常表情识别模型结构图；

图9是本申请另一个示例性实施例提供的视频素材图像的选择方法的流程图；

图10是本申请一个示例性实施例提供的人体头部姿态分析示意图；

图11是本申请另一个示例性实施例提供的视频素材图像的选择方法的流程图；

图12是本申请一个示例性实施例提供的视频素材图像生成框架的结构示意图；

图13是本申请一个示例性实施例提供的视频素材图像的选择装置的结构框图；

图14是本申请另一个示例性实施例提供的视频素材图像的选择装置的结构框图；

图15是本申请另一个示例性实施例提供的视频素材图像的选择装置的结构框图；

图16是本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

目前，随着互联网技术的不断发展，对于视频内容的宣传不再依靠人工制作宣传图，而是采用计算机技术进行智能化批量选取视频素材图像作为宣传图，但相关技术中所选取的视频素材图像无法满足宣传需求，图片的美观度和宣传内容质量都比较低，如：易出现人脸表情扭曲、夸张等问题。

本申请实施例提供了一种视频素材图像选取方法，在该方法在实施过程中，能够精准识别到视频帧中的人脸区域，并对人脸表情进行表情质量分析，保证视频素材图像的美观性以及内容质量。

图1是本申请一个示例性实施例提供的实施环境示意图，如图1所示，该实施环境中包括终端110和服务器120，其中，终端110和服务器120之间通过通信网络130连接。

其中，终端110中可以安装有提供视频推荐功能的应用程序，而该应用程序中具有显示视频素材图像的功能，也即，当用户在终端110上运行应用程序，并在应用程序中提供的候选视频中选取视频进行播放时，能够看到候选视频各自对应的视频素材图像，如：视频封面图像或者视频海报图像。该视频素材图像为服务器120从候选视频的视频帧中选择的。

服务器120用于根据候选视频的视频流中视频帧对应的人脸区域，从视频流中间确定出目标视频帧，其中，目标视频帧即后续作为视频素材图像的视频帧。其中，服务器120在确定人脸区域后，根据人脸区域分析得到的人脸表情质量确定目标视频帧。

示意性的，当终端110需要对指定视频的视频封面图像进行显示时，向服务器120发送显示请求，显示请求中包括指定视频的视频标识，服务器120根据视频标识获取指定视频的视频封面图像，该视频封面图像时根据人脸表情质量选取的，并将视频封面图像反馈至终端110进行显示。

终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、智能电视、智能车载设备等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接连接，本申请在此不做限制。

值得注意的是，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

在一些实施例中，上述服务器还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

首先图2是本申请一个示例性实施例提供的视频素材图像的选择过程示意图，如图2所示，该过程中首先从目标视频流200中确定出n帧候选视频帧210；对该n帧候选视频帧中的人脸区域进行表情分析，并基于得到的表情分析结果，从候选视频帧210中确定出表情质量较高的视频帧220，将该视频帧220作为视频素材图像，得到目标视频流200的封面图或者海报图；如图2所示，根据不同的视频投放需求，确定与视频投放需求对应的图像格式的模板，从而得到视频封面图像221或海报图像222。

结合上述实施环境，对本申请实施例提供的视频素材图像的选择方法进行说明，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，本申请实施例中，以该方法由图1所示的服务器120执行为例进行说明，如图3所示，该方法包括：

步骤310，获取目标视频流。

其中，目标视频流中包括视频帧。

可选地，服务器获取目标视频流的方式包括如下方式中的至少一种：

第一，服务器接收终端上传的目标视频流；

第二，服务器接收终端发送的第一视频请求，第一视频请求中包括目标视频流的视频标识，服务器根据视频标识从已存储的视频库中获取目标视频流；

第三，服务器接收终端上传的第二视频请求，第二视频请求中包括视频标识以及视频节选条件；服务器根据视频标识从已存储的视频库中获取视频流，并根据视频节选条件从视频流中截取得到目标视频流。

在一些实施例中，目标视频流是需要选取视频图像素材的视频。该目标视频流是一个完整的影视节目，如：电视剧、电影、综艺节目、记录片等；或者，该目标视频流是对影视节目进行片段截取后得到的视频片段。

在一些实施例中，首先获取目标视频流中的视频帧，从而基于视频帧进行后续处理。示意性的，首先对目标视频流的视频格式进行兼容校正，并对校正后的目标视频流进行帧级并行多段解码，从而从目标视频流中获取视频帧。

其中，获取的视频帧为目标视频流中的每一帧视频帧；或者，获取的视频帧是目标视频流中的部分视频帧。

在一些实施例中，通过聚类的方式选择目标视频流中的部分视频帧。示意性的，对目标视频流中的所有视频帧进行聚类处理，得到聚类结果，聚类结果中包括所有视频帧所属的聚类，从每个聚类中随机选择预设数量的视频帧进行后续处理，或者，从每个聚类中选择符合指定条件(如：清晰度条件、对比度条件等)的视频帧进行后续处理。在一些实施例中，通过计算目标视频流中视频帧的哈希值对视频帧进行聚类。

在一些实施例中，目标视频流为包含真人出演的影视节目；或者，目标视频流为包含动漫形象的影视节目。

其中，当目标视频流中包含真人出演时，存在视频帧中包括真人的人脸图像；或者，当目标视频流中包括动漫形象时，存在视频帧中包括可识别的动漫人脸图像。

值得注意的是，上述目标视频流的形式仅为示意性的举例，本申请实施例对目标视频流的具体形式不加以限定。

步骤320，对视频帧进行人脸检测，得到包含人脸区域的n帧候选视频帧，n≥2且n为整数。

在一些实施例中，对视频帧进行人脸检测。

可选地，通过预先训练得到的人脸检测模型对视频帧进行人脸检测。可选的，人脸检测模型用于通过识别人脸检测点确定人脸区域。

其中，将目标视频流中的视频帧输入至人脸检测模型，从而输出得到每一帧视频帧对应的人脸检测结果。其中，人脸检测结果用于指示当前视频帧中包含的人脸区域信息，根据人脸检测结果从视频帧中确定出n帧候选视频帧，n帧候选视频帧为包含人脸区域的视频帧。

其中，人脸检测结果中还包括人脸区域的区域参数，如：人脸区域的区域位置、区域尺寸等。可选地，对视频帧进行人脸检测，得到包含人脸区域的人脸视频帧，基于人脸视频帧中人脸区域的区域参数，对人脸视频帧进行筛选，得到n帧候选视频帧。其中，用于进行人脸视频帧筛选的区域参数包括区域尺寸和区域位置中的至少一种。

示意性的，筛除人脸区域过大、过小或者位置处于视频帧边界的视频帧。

步骤330，对候选视频帧中的人脸区域进行表情分析，得到人脸区域的表情分析结果。

可选的，表情分析结果用于指示人脸区域中的人脸表情质量。

在一些实施例中，人脸检测的过程中存在候选视频帧中包括多个人脸的情况，当一帧视频帧中包括多个人脸时，采用如下方式中的至少一种从多个人脸中确定出需要进行表情分析的人脸。

第一，对候选视频帧中的多个人脸都进行异常表情分析。

第二，将候选视频帧中人脸面积最大的人脸作为需要进行表情分析的人脸；也即，在人脸检测的过程中识别得到各个人脸对应的人脸区域，根据人脸区域的面积，将人脸区域面积最大的人脸作为需要进行表情分析的人脸。

第三，将候选视频帧中与预设人脸库中的人脸样本匹配的人脸，作为需要进行表情分析的人脸；示意性的，预设人脸库中包括已获取并存储的明星人脸，当候选视频帧中包括明星人脸时，则将该明星人脸作为需要进行表情分析的人脸。在一些实施例中，预设人脸库中的明星人脸按照预设次序排序，中包括至少两个明星人脸时，根据明星人脸在预设人脸库中的排序，选择排序较高的明星人脸作为需要进行表情分析的人脸。

第四，将候选视频帧中与预设角色库中的人脸样本匹配的人脸，作为需要进行表情分析的人脸；其中，预设角色库为与当前目标视频流对应的角色设置的人脸库，可选地，预设角色库中包括当前目标视频流中主角角色对应的人脸，从而针对候选视频帧中的主角人脸进行表情分析。

第五，对候选视频帧中的多个人脸进行清晰度检测，将清晰度最高的人脸作为需要进行表情分析的人脸。

值得注意的是，上述确定进行表情分析的人脸的方式仅为示意性的举例，本申请实施例对此不加以限定。

在一些实施例中，通过预先训练的异常表情识别模型对候选视频帧中的人脸区域进行表情分析，也即，将候选视频帧中的人脸区域输入异常表情识别模型后，输出得到表情分析结果。其中，该异常表情识别模型为分类回归模型，用于将人脸区域归类至不同的表情状态，如：闭眼状态、嘟嘴状态、眼睛半睁状态等。

在一些实施例中，根据五官分布情况来对需要分析的人脸区域进行分割，结合五官各部分状态来综合评定表情分析结果。

即，根据人脸五官分布对人脸区域进行子区域分割，得到与五官对应的人脸子区域，对与五官对应的人脸子区域分别进行表情分析，得到人脸区域的表情分析结果。

在一些实施例中，通过人脸检测模型检测得到视频帧中人脸关键点后，根据人脸关键点确定五官分别对应的关键点位置，从而进行子区域的分割。示意性的，通过人脸检测模型检测得到人脸关键点后，确定眼睛关键点所处的位置，从人脸区域中分割得到眼睛子区域；或者，确定嘴巴关键点所处的位置，从人脸区域中分割得到嘴巴子区域。

示意性的，本申请实施例中，人脸子区域包括人脸眼睛对应的第一子区域，则对第一子区域进行表情分析，得到与人脸眼睛对应的眼睛状态分析结果，该眼睛状态分析结果用于指示人脸区域中人脸眼睛的睁闭程度。可选地，该眼睛状态分析结果还用于指示眼睛位置的遮挡情况。示意性的，请参考图4，其示出了本申请一个示例性实施例提供的人脸眼睛的分析过程示意图，如图4所示，对人脸区域410进行表情分析后，分析得到人脸区域410的眼睛状态分析结果为“闭眼状态”；如图5所示，对人脸区域510进行表情分析后，分析得到人脸区域510的眼睛状态分析结果为“眼睛半睁状态”。

在一些实施例中，上述异常表情识别模型中包括眼睛状态分析模型，将第一子区域输入该眼睛状态分析模型后，即可输出得到眼睛状态分析结果。其中，眼睛状态分析模型为用于在候选眼睛状态中进行分类回归的模型。

或者，示意性的，本申请实施例中，人脸子区域包括人脸嘴巴对应的第二子区域，则对第二子区域进行表情分析，得到与人脸嘴巴对应的嘴巴状态分析结果，该嘴巴状态分析结果用于指示人脸区域中人脸嘴巴的表现形态。可选地，该嘴巴状态分析结果还用于指示嘴巴位置的遮挡情况。示意性的，请参考图6，其示出了本申请一个示例性实施例提供的人脸嘴巴的分析过程示意图，如图6所示，对人脸区域610进行表情分析后，分析得到人脸区域610的嘴巴状态分析结果为“龇牙状态”；如图7所示，对人脸区域710进行表情分析后，分析得到人脸区域710的嘴巴状态分析结果为“嘟嘴状态”。

在一些实施例中，上述异常表情识别模型中包括嘴巴状态分析模型，将第二子区域输入该嘴巴状态分析模型后，即可输出得到嘴巴状态分析结果。其中，嘴巴状态分析模型为用于在候选嘴巴状态中进行分类回归的模型。

在一些实施例中，异常表情识别模型采用粗粒度分类+细粒度五官分类的方法，通过综合决策得到正常/异常的预测，模型结构如图8所示。将脸部图像810输入特征提取网络820进行特征提取后，从提取的特征中获取全局特征831、眼部特征832以及嘴部特征833，通过全局特征831进行全局表情分析，得到全局分析结果，其中，全局分析结果在候选状态(正常、异常)中进行确定。通过眼部特征832进行眼睛状态分析，得到眼睛状态分析结果，其中，眼睛状态分析结果在候选眼睛状态(半睁、闭眼、睁眼、眯眼、不确定、遮挡)中进行确定。通过嘴部特征833进行嘴巴状态分析，得到嘴巴状态分析结果，其中，嘴巴状态分析结果在候选嘴巴状态(嘟嘴、龇牙、露齿笑、张大、微张、闭合、遮挡)中进行确定。

可选地，异常表情识别模型的训练过程中，通过收集了约40000张标注有标签状态的人脸截图进行训练，正常/异常图片比约为9:1。

基于上述表情分析结果，表情状态的评判规则包括如下情况：

1、当满足以下任一规则：眼睛异常(眼睛状态为闭眼或半睁半闭)、嘴部异常(嘴部状态为龇牙咧嘴)、全局异常、组合异常(嘴部不是张大或咧嘴笑时眼睛状态为眯眼)，则确定为表情状态极差；

2、当满足以下规则：眼睛可能异常(眼睛状态为遮挡或不确定)、嘴部可能异常(嘴部状态为嘟嘴、张大或遮挡)、组合异常(眼睛非睁眼且嘴巴微张)，则确定表情状态为差；

3、当满足以下规则：嘴巴状态为微张，则确定表情状态为尚可；

4、当不满足上述1、2或者3任一规则，则确定表情状态为正常。

步骤340，基于表情分析结果从n帧候选视频帧中确定该目标视频帧，作为目标视频流的视频素材图像。

其中，视频素材图像用于作为目标视频流的代表性图像，如：目标视频流的封面图像，或者目标视频流的海报图像。

在一些实施例中，基于表情分析结果确定目标视频帧时，包括如下方式中的至少一种：

1.将表情分析结果不符合表情质量要求的候选视频帧剔除后，根据图像参数从余下的候选视频帧中确定目标视频帧；

示意性的，将上述表情状态为正常和尚可的第一候选视频帧留下，并剔除表情状态为极差和差的第二候选视频帧，根据第一候选视频帧的清晰度、美观度、字幕显示情况、广告弹窗显示情况等参数，从第一候选视频帧中确定目标视频帧。

2.将表情分析结果作为一个并列参数，与其他参数进行加权计算，得到每个候选视频帧的质量分，根据质量分确定出目标视频帧。

值得注意的是，上述确定目标视频帧的方式仅为示意性的举例，本申请实施例对确定目标视频帧的方式不加以限定。

综上所述，本申请实施例提供的视频素材图像的选择方法，通过对候选视频帧中的人脸区域进行表情分析，得到表情分析结果，从而在表情分析结果的基础上，从候选视频帧中确定出目标视频帧，作为目标视频流的代表性图像，用于生成目标视频流的封面或者目标视频流的海报图像，提高了视频素材图像的确定准确率，以及视频素材图像中的图像内容质量，提高了视频素材图像的生成效率。

在一些实施例中，上述人脸区域中的人脸表情质量受到头部姿态的影响。图9是本申请一个示例性实施例提供的视频素材图像的选择方法的流程图，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，本申请实施例中，以该方法由服务器执行为例进行说明，如图9所示，该方法包括：

步骤901，获取目标视频流。

其中，目标视频流中包括视频帧。

步骤902，对视频帧进行人脸检测，得到包含人脸区域的n帧候选视频帧，n≥2且n为整数。

在一些实施例中，对视频帧进行人脸检测。

步骤903，对人脸区域进行头部姿态分析，得到人脸区域的头部姿态结果。

在一些实施例中，通过预先训练的头部姿态模型对视频帧中的人脸区域进行头部姿态分析，得到人脸区域的头部姿态结果，其头部姿态结果用于指示人脸区域中的人脸旋转角度。在一些实施例中，人脸旋转角度包括人脸在俯仰方向上的旋转角度、在翻滚方向上的旋转角度、在偏航方向上的旋转角度中的至少一种。

图10是本申请一个示例性实施例提供的人体头部姿态分析示意图，用该模型能够确定人脸区域中的头部姿态结果。如图10所示，通过测量人体头部偏移角度的数值，来确定人体头部在三维坐标系中的偏移方向1010，包括沿X轴俯仰偏移的头部姿态1011(如抬头、低头)，沿Y轴翻滚偏移的头部姿态1012(如左歪头，右歪头)和沿Z轴偏航的头部姿态1013(左侧脸，右侧脸)沿以此来判断视频帧中的人脸区域是否是正面的。

步骤904，基于头部姿态结果对人脸区域进行表情分析，得到人脸区域的表情分析结果。

在一些实施例中，异常表情识别模型通过采用基于拉普拉斯算子计算边缘方差，得出的方差数值作为视频帧中人脸区域的清晰度估算分数，分数值越高，说明视频帧清晰度越高。

基于上述人体头部姿态结果和异常表情识别结果，所选视频帧中人脸区域完整异常表情识别规则包括如下情况：

1、当满足以下规则：画面中面积最大的人脸为正面、清晰、表情正常的人脸；画面中不包含差、极差表情的人脸，则确定为表情状态极好；

2、当满足以下规则：画面中面积最大的人脸为清晰、表情正常的人脸；不包含极差的清晰、近景人脸，则确定表情状态为好；

3、当满足以下规则：包含至少一个清晰、表情正常的人脸，并且不包含极差的正面、清晰、近景人脸，则确定表情状态为普通；

4、当满足以下规则：包含至少一个清晰、表情差的人脸，并且最大人脸不是极差或不包含极差的正面、清晰、近景人脸，则确定表情状态为差；

5、当满足以下规则：包含至少一个清晰、表情差的人脸，则确定表情状态为极差。

6、当满足以下规则：不包含清晰、表情不是极差的人脸，则确定所选视频帧为无效视频帧。

步骤905，基于表情分析结果从n帧候选视频帧中确定该目标视频帧，作为目标视频流的视频素材图像。

本实施例提供的方法，通过分析候选视频帧中人脸区域的人脸旋转角度，测量人体头部偏移角度的大小，来确定人体头部在三维坐标系中的偏移方向。结合人体头部偏移方向和人脸区域表情的分析数据，得到候选视频帧中的人脸区域表情质量结果，从而在n帧候选视频帧中确定目标视频帧，作为目标视频流的视频素材图像。本申请提供的方法提高了目标视频帧中人脸区域表情分析结果的精确度，保证了目标视频帧的内容质量。

在一些实施例中，目标视频帧是根据表情分析结果和多样性参数确定的。图11是本申请一个示例性实施例提供的视频素材图像的选择方法的流程图，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，本申请实施例中，以该方法由服务器执行为例进行说明，如图11所示，该方法包括：

步骤1101，获取目标视频流。

其中，目标视频流中包括视频帧。

在一些实施例中，对视频帧进行人体检测，得到人体关键点(如：头部、躯干和四肢等)，判断人体头部、躯干和四肢在视频帧画面中是否有截断现象，以此确定各视频帧中的人体状态，响应于人体状态符合人体完整性条件，在目标视频流中保留符合人体完整性条件的视频帧，而其余视频帧则不进行后续处理。

步骤1102，对视频帧进行人脸检测，得到包含人脸区域的n帧候选视频帧，n≥2且n为整数。

在一些实施例中，对视频帧进行人脸检测。

步骤1103，对候选视频帧中的人脸区域进行表情分析，得到人脸区域的表情分析结果。

步骤1104，基于表情分析结果确定n帧候选视频帧的质量参数。

在一些实施例中，通过对n帧候选视频帧进行分析，从而获取候选视频帧的清晰度分析分数、美观度分析分数、人脸位置分析分数，以及表情分析结果对应的表情分数，将清晰度分析分数、美观度分析分数、人脸位置分析分数以及表情分数的加权和确定为候选视频帧的质量参数。

步骤1105，确定候选视频帧的多样性参数。

可选的，在针对候选视频帧进行多样性参数计算之前，还需要对候选视频帧进行聚类筛选，其中，聚类筛选方式包括如下方式中的至少一种：

第一，对出现同一人物的候选视频帧进行聚类，并从同一聚类中选取预设数量的候选视频帧作为需要进行多样性分析的候选视频帧。

第二，对场景相同或者相似的候选视频帧进行聚类，并从同一聚类中选取预设数量的候选视频帧作为需要进行多样性分析的候选视频帧。

第三，对出现相同人物组合的候选视频帧进行聚类，并从同一聚类中选取预设数量的候选视频帧作为需要进行多样性分析的候选视频帧。

值得注意的是，上述确定候选视频帧的聚类筛选方式仅为示意性的举例，本申请实施例对聚类筛选方式不加以限定。

在一些实施例中，候选视频帧的多样性参数通过对所选候选视频帧与其他候选视频帧之间的距离和进行计算，得到的距离和结果作为所选候选视频帧的多样性参数，即针对第i帧候选视频帧，确定第i帧候选视频帧与n帧候选视频中其他候选视频帧之间的距离和，0＜i≤n，基于距离和确定第i帧候选视频帧的多样性参数，当第i帧候选视频帧与n帧候选视频帧和其他候选视频帧之间的距离和数值越大时，表示第i帧候选视频帧的多样性质量越高。

步骤1106，基于质量参数和多样性参数从n帧候选视频帧中确定目标视频帧，作为目标视频流的视频素材图像。

在一些实施例中，通过计算多样性质量分来确定候选视频帧中的目标视频帧，多样性质量分的公式算法是由最大边缘算法MMR(Maximal Marginal Relevance)演化得来。该算法的目的是减少排序结果的冗余，同时保证结果的相关性，用于给用户推荐相关产品的同时，保证推荐结果的多样性，即排序结果存在相关性与多样性的权衡，具体公式如公式一：

公式一：

其中Q表示Query，S为已选集合，R表示所有候选集，D_i表示当前候选结果，D_j表示在已选集合S中除D_i的其他结果，Sim₁为候选结果与Query的相关性，Sim₂为D之间的相关性，λ为权重系数，调节推荐结果相关性与多样性。

在本实施例中，为了在目标视频流中选取目标视频帧，在保证目标视频帧的质量同时还能保证目标视频帧的多样性，因此提出了计算候选视频帧当前分数的公式多样性质量分，具体公式如公式二：

公式二：

类比于公式1，其中D_i为当前候选视频帧，R为所有候选视频帧集合，S为已选候选视频帧集合，D_j为已选候选视频帧集合S中除D_i的其他候选视频帧，λ为调节结果与多样性的权重系数，f(D_i)为候选视频帧作为视频海报宣传的合适度分数，dist(D_i，D_j)为候选视频帧之间的距离。公式中的f(D_i)是一个与选图算法相关的分数公式，是清晰度分析分数、美观度分析分数、人脸位置分析分数以及表情分数等分析因素的加权平均和，分数越高表示当前候选视频帧越适合作为视频海报素材。dist(D_i，D_j)是距离公式，本方案使用了人体区域图像特征、整图图像特征以及人脸大小差异、人脸个数差的加权平均和作为距离，即，将第m帧候选视频帧的质量参数与第m帧视频帧的多样性参数加权求和，得到第m帧视频帧的素材适配分数，0＜m≤n，基于n帧视频帧分别对应的素材适配分数，从n帧视频帧中确定目标视频帧。综上所述，本申请实施例提供的视频素材图像的选择方法，通过对候选视频帧中的人脸区域进行表情分析，得到表情分析结果，从而在表情分析结果的基础上，从候选视频帧中确定出目标视频帧，作为目标视频流的代表性图像，用于生成目标视频流的封面或者目标视频流的海报图像，提高了视频素材图像的确定准确率，以及视频素材图像中的图像内容质量，提高了视频素材图像的生成效率。

图12是本申请一个示例性实施例提供的视频素材图像生成框架1200的结构示意图，如图12所示，该框架中包括如下部分：

解码聚类1201、过滤排序1202、瑕疵检测1203、选图处理1204、设计元素加工1205以及投放反馈1206。对上述部分分别进行说明。

解码聚类1201是指对视频格式进行兼容校正，并对校正后的视频流进行帧级并行多段解码，从而选取一定数量的候选帧。其中，计算候选帧全局图像哈希值，并对相似候选帧进行聚类，从而用于后续抑制相似候选帧的输出。

过滤排序1202是指通过图像内容质量或者图像本身的参数对候选帧进行过滤和排序，以便后续视频素材图像的确认。其中包括基础分析1211、清晰度1212、美观度1213、OCR识别1214、关键点1215、人脸筛选，其中包括人脸检测1216，明星识别1217和异常表情1218以及场景识别1219。

先利用基础分析1211通过计算图像亮度、对比度和饱和度数值，初步筛除太暗、太模糊的视频帧；再根据清晰度1212对目标视频流中的视频帧进行清晰度评分，筛除由于镜头晃动、人物移动等因素造成的模糊场景，同时选出清晰度质量更高的视频帧。接着根据美观度1213对视频帧进行美观度打分，该打分流程所需构建的模型使用美学、摄影以及自有封面帧数据集进行训练，对于构图巧妙、布光清晰、具有表现力的视频帧有较好的筛选效果。

然后通过OCR识别1214识别出视频帧中的文字区域，筛除台词区域与人脸区域有重合的视频帧以及影视剧中插广告的片段，并用于后续裁剪去除字幕部分。紧接着通过关键点1215也即人体关键点识别技术判断视频帧画面是否将人体区域截断，提高视频海报素材的合格率，同时可用于选择人体不被遮挡的视频帧。通过人脸检测1216确定视频帧中人脸和人脸关键点的位置，筛除人脸区域过大、过小或位置处于边界的视频帧，并用于后续选取目标视频帧。接着通过异常表情1218识别到人脸眼睛、嘴巴等部位的具体状态，筛除含有闭眼、龇牙咧嘴等异常表情的视频帧，同时选出目标视频流中人物表情质量更高的视频帧；然后通过明星识别1217识别出视频帧中的明星，根据用户对明星的关注度排序以及视频帧内容中出现的明星画面，优先选择包含有用户关注度高的明星的视频帧，或与候选视频帧关联性大的包含有主演明星的视频帧提高视频帧的相关度和观众的关注度，最后通过利用场景识别1219识别出视频帧中的场景，优先选择与目标视频流中场景匹配的视频帧。

瑕疵检测1203是指对视频帧中出现的明显瑕疵进行检测，从而过滤存在明显瑕疵的视频帧，或者消除视频帧中出现的瑕疵。其中，瑕疵检测1203包括黑白边检测1221、毛玻璃检测1222和商标(Logo)检测1223，并在检测后，能够过滤包括黑白边的视频帧，或者图像存在毛玻璃特效的视频帧，或者将视频帧中的Logo进行消除。

选图处理1204是指根据多样性要求和图像尺寸要求等选出符合要求的视频帧，以及对选出的视频帧进行修图，选图处理1204中包括多样性选图1231、智能裁剪1232以及抹除Logo1233，其中，多样性选图1231是指根据多样性要求1231选择多个互不相同的视频帧，智能裁剪1232是指根据不同的广告投放需要设定的不同视频帧模板对候选视频帧的多余部分或者字幕部分或者广告部分进行裁剪，抹除Logo1233是指将视频帧上显示的Logo进行智能消除。

设计元素加工1205是指在确定出目标视频帧后，根据目标视频帧生成海报或者封面图的过程。其中包括模板设计1241、元素位置选择1242、配色选择1243、图像增强1244。其中模板设计1241是指根据模板要求设计模板，从而在模板中插入经过编辑的目标视频帧，生成海报或者封面图；元素位置选择1242是指对海报或者封面图中的显示元素进行显示位置的确定；配色选择1243是指对海报或者封面图的配色进行设计；图像增强1244是指有目的地强调图像的整体或局部特性，将原来不清晰的图像变得清晰或强调某些感兴趣的特征，扩大图像中不同物体特征之间的差别。

投放反馈1206是指根据海报或者封面图的投放确定反馈的投放效果。其中包括AI素材标签1251、投放效果监测迭代1252以及负面情况(Badcase)反馈机制1253。其中，AI素材标签1251是指通过人工智能技术向海报或者封面图标注对应的影视类别标签。投放效果监测迭代1252是指根据海报或者封面图投放后的反馈数据实时更新投放效果数据。Badcase反馈机制1253是指接收当海报或者封面图投放后效果较差的情况的反馈。

在本实施例中，利用影视节目等视频流中的视频帧作为视频素材图像可以有效吸引用户使用视频APP，并留存、活跃。但是人工制作相关素材耗时费力，产量有限，需要从大量视频流中挑选合适的视频帧再制作设计，速度产量受限。通过人物识别、场景理解、画面分析等技术，截取视频流中高质量视频帧，再通过智能裁剪、制图，可以自动化生产出优质的视频素材图像。在快速投放需求下，AI海报生产可以比人工制作素材更快速响应、节约时间；同时AI产能不受限，可以同时高效支持海量视频的视频素材图像生产任务。

一批视频素材图像中实际被选中并进行投放的视频帧占所有输出目标视频流的视频帧的比例即素材的采用率。影响采用率的主要因素主要是视频帧本身质量问题与多样性的问题。视频帧质量有硬伤，比如人物表情不自然、画面昏暗模糊等，会导致视频帧不可作为视频素材图像使用。另外，生产的多张视频素材图像重复率较高时，通常只会选择其中最优的视频素材图像进行投放，导致其余重复的视频素材图像不可用。直接使用现有技术方案进行视频素材图像提取时，素材的可用率仅为10％-20，而基于本方案的视频素材图像选取，素材可用性预计可达到60％-70％。

图13是本申请一个示例性实施例提供的视频素材图像的选择装置的结构框图，如图13所示，该装置包括：

获取模块1310，用于获取目标视频流，所述目标视频流中包括视频帧；

第一检测模块1320，用于对所述视频帧进行人脸检测，得到包含人脸区域的n帧候选视频帧，n≥2且n为整数；

第一分析模块1330，用于对所述候选视频帧中的人脸区域进行表情分析，得到所述人脸区域的表情分析结果，所述表情分析结果用于指示所述人脸区域中的人脸表情质量；

第一确定模块1340，用于基于所述表情分析结果从所述n帧候选视频帧中确定目标视频帧，作为所述目标视频流的视频素材图像，所述视频素材图像用于作为所述目标视频流的代表性图像。

在一个可选的实施例中，对所述候选视频帧中的人脸区域进行表情分析，得到所述人脸区域的表情分析结果；

所述第一分析模块1330，还用于根据人脸五官分布对所述人脸区域进行子区域分割，得到与五官对应的人脸子区域；对所述与五官对应的人脸子区域分别进行表情分析，得到所述人脸区域的所述表情分析结果。

在一个可选的实施例中，所述第一分析模块1330，还用于对所述第一子区域进行表情分析，得到与所述人脸眼睛对应的眼睛状态分析结果，所述眼睛状态分析结果用于指示所述人脸区域中所述人脸眼睛的睁闭程度。

在一个可选的实施例中，所述第一分析模块1330，还用于对所述第二子区域进行表情分析，得到与所述人脸嘴巴对应的嘴巴状态分析结果，所述嘴巴状态分析结果用于指示所述人脸区域中所述人脸嘴巴的表现形态。

在一个可选的实施例中，如图14所示，该装置还包括：

第二分析模块1350，用于对所述人脸区域进行头部姿态分析，得到所述人脸区域的头部姿态结果，所述头部姿态结果用于指示所述人脸区域中的人脸旋转角度；所述第一分析模块1330，还用于基于所述头部姿态结果对所述人脸区域进行表情分析，得到所述表情分析结果。

在一个可选的实施例中，所述第一确定模块1340，还用于基于所述表情分析结果确定所述n帧候选视频帧的质量参数；确定所述候选视频帧的多样性参数；基于所述质量参数和所述多样性参数从所述n帧候选视频帧中确定所述目标视频帧。

在一个可选的实施例中，所述确定所述候选视频帧的多样性参数；

所述第一确定模块1340，还用于针对第i帧候选视频帧，确定所述第i帧候选视频帧与所述n帧候选视频中其他候选视频帧之间的距离和，0＜i≤n；基于所述距离和确定所述第i帧候选视频帧的多样性参数。

在一个可选的实施例中，所述基于所述表情分析结果确定所述n帧候选视频帧的质量参数；

所述第一确定模块1340，还用于获取所述候选视频帧的清晰度分析分数、美观度分析分数、人脸位置分析分数，以及与所述表情分析结果对应的表情分数；将所述清晰度分析分数、所述美观度分析分数、所述人脸位置分析分数以及所述表情分数的加权和确定为所述候选视频帧的质量参数。

在一个可选的实施例中，所述基于所述质量参数和所述多样性参数从所述n帧候选视频帧中确定所述目标视频帧；

所述第一确定模块1340，还用于将第m帧候选视频帧的质量参数与第m帧视频帧的多样性参数加权求和，得到第m帧视频帧的素材适配分数，0＜m≤n；基于n帧视频帧分别对应的素材适配分数，从n帧视频帧中确定所述目标视频帧。

在一个可选的实施例中，所述对所述视频帧进行人脸检测，得到包含人脸区域的n帧候选视频；

所述第一检测模块1320，还用于对所述视频帧进行人脸检测，得到包含人脸区域的人脸视频帧；基于所述人脸视频帧中所述人脸区域的区域参数，对所述人脸视频帧进行筛选，得到所述n帧候选视频帧，所述区域参数包括区域尺寸、区域位置中的至少一种。

在一个可选的实施例中，在如图13所示出的获取模块1310、第一检测模块1320、第一分析模块1330和第一确定模块1340的基础上，如图15所示，该装置还包括：

第二检测模块1360，用于对所述视频帧进行人体检测，得到人体关键点；

第二确定模块1370，用于基于所述人体关键点确定所述视频帧中的人体状态；

保留模块1380，用于响应于所述人体状态符合人体完整性条件，在所述目标视频流中保留符合所述人体完整性条件的视频帧。

综上所述，本申请实施例提供的视频素材图像的选择装置，通过对候选视频帧中的人脸区域进行表情分析，得到表情分析结果，从而在表情分析结果的基础上，从候选视频帧中确定出目标视频帧，作为目标视频流的代表性图像，用于生成目标视频流的封面或者目标视频流的海报图像，提高了视频素材图像的确定准确率，以及视频素材图像中的图像内容质量，提高了视频素材图像的生成效率。

需要说明的是：上述实施例提供的视频素材图像的选择装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频素材图像的选择装置，与视频素材图像的选择方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图16示出了本申请一个示例性实施例提供的计算机设备1600的结构框图。该计算机设备1600可以是图1所示的服务器或终端。

通常，计算机设备1600包括有：处理器1601和存储器1602。

处理器1601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1601可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1601所执行以实现本申请中方法实施例提供的视频素材图像的选择方法。

在一些实施例中，计算机设备1600还可选包括有：外围设备接口1603和至少一个外围设备。处理器1601、存储器1602和外围设备接口1603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1603相连。具体地，外围设备包括：射频电路1604、显示屏1605、摄像头组件1606、音频电路1607、定位组件1608和电源1609中的至少一种。

外围设备接口1603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1601和存储器1602。在一些实施例中，处理器1601、存储器1602和外围设备接口1603被集成在同一芯片或电路板上；在一些其他实施例中，处理器1601、存储器1602和外围设备接口1603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1605是触摸显示屏时，显示屏1605还具有采集在显示屏1605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1601进行处理。此时，显示屏1605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1605可以为一个，设置在计算机设备1600的前面板；在另一些实施例中，显示屏1605可以为至少两个，分别设置在计算机设备1600的不同表面或呈折叠设计；在另一些实施例中，显示屏1605可以是柔性显示屏，设置在计算机设备1600的弯曲表面上或折叠面上。甚至，显示屏1605还可以设置成非矩形的不规则图形，也即异形屏。显示屏1605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(OrganicLight-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件1606用于采集图像或视频。可选地，摄像头组件1606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1601进行处理，或者输入至射频电路1604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备1600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1601或射频电路1604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1607还可以包括耳机插孔。

定位组件1608用于定位计算机设备1600的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件1608可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1609用于为计算机设备1600中的各个组件进行供电。电源1609可以是交流电、直流电、一次性电池或可充电电池。当电源1609包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备1600还包括有一个或多个传感器1610。该一个或多个传感器1610包括但不限于：加速度传感器1611、陀螺仪传感器1612、压力传感器1613、指纹传感器1614、光学传感器1615以及接近传感器1616。

加速度传感器1611可以检测以计算机设备1600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1611可以用于检测重力加速度在三个坐标轴上的分量。处理器1601可以根据加速度传感器1611采集的重力加速度信号，控制显示屏1605以横向视图或纵向视图进行用户界面的显示。加速度传感器1611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1612可以检测计算机设备1600的机体方向及转动角度，陀螺仪传感器1612可以与加速度传感器1611协同采集用户对计算机设备1600的3D动作。处理器1601根据陀螺仪传感器1612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1613可以设置在计算机设备1600的侧边框和/或显示屏1605的下层。当压力传感器1613设置在计算机设备1600的侧边框时，可以检测用户对计算机设备1600的握持信号，由处理器1601根据压力传感器1613采集的握持信号进行左右手识别或快捷操作。当压力传感器1613设置在显示屏1605的下层时，由处理器1601根据用户对显示屏1605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1614用于采集用户的指纹，由处理器1601根据指纹传感器1614采集到的指纹识别用户的身份，或者，由指纹传感器1614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1614可以被设置在计算机设备1600的正面、背面或侧面。当计算机设备1600上设置有物理按键或厂商Logo时，指纹传感器1614可以与物理按键或厂商Logo集成在一起。

光学传感器1615用于采集环境光强度。在一个实施例中，处理器1601可以根据光学传感器1615采集的环境光强度，控制显示屏1605的显示亮度。具体地，当环境光强度较高时，调高显示屏1605的显示亮度；当环境光强度较低时，调低显示屏1605的显示亮度。在另一个实施例中，处理器1601还可以根据光学传感器1615采集的环境光强度，动态调整摄像头组件1606的拍摄参数。

接近传感器1616，也称距离传感器，通常设置在计算机设备1600的前面板。接近传感器1616用于采集用户与计算机设备1600的正面之间的距离。在一个实施例中，当接近传感器1616检测到用户与计算机设备1600的正面之间的距离逐渐变小时，由处理器1601控制显示屏1605从亮屏状态切换为息屏状态；当接近传感器1616检测到用户与计算机设备1600的正面之间的距离逐渐变大时，由处理器1601控制显示屏1605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图16中示出的结构并不构成对计算机设备1600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

需要说明的是：上述实施例提供的视频素材图像的选择装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频素材图像的选择装置与视频素材图像的选择方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的视频素材图像的选择方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的视频素材图像的选择方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的视频素材图像的选择方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频素材图像的选择方法，其特征在于，所述方法包括：

获取目标视频流，所述目标视频流中包括视频帧；

2.根据权利要求1所述的方法，其特征在于，所述对所述候选视频帧中的人脸区域进行表情分析，得到所述人脸区域的表情分析结果，包括：

根据人脸五官分布对所述人脸区域进行子区域分割，得到与五官对应的人脸子区域；

对所述与五官对应的人脸子区域分别进行表情分析，得到所述人脸区域的所述表情分析结果。

3.根据权利要求2所述的方法，其特征在于，所述人脸子区域包括与人脸眼睛对应的第一子区域；

所述对所述与五官对应的人脸子区域分别进行表情分析，得到所述人脸区域的所述表情分析结果，包括：

对所述第一子区域进行表情分析，得到与所述人脸眼睛对应的眼睛状态分析结果，所述眼睛状态分析结果用于指示所述人脸区域中所述人脸眼睛的睁闭程度。

4.根据权利要求2所述的方法，其特征在于，所述人脸子区域包括与人脸嘴巴对应的第二子区域；

对所述第二子区域进行表情分析，得到与所述人脸嘴巴对应的嘴巴状态分析结果，所述嘴巴状态分析结果用于指示所述人脸区域中所述人脸嘴巴的表现形态。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述人脸区域进行头部姿态分析，得到所述人脸区域的头部姿态结果，所述头部姿态结果用于指示所述人脸区域中的人脸旋转角度；

所述对所述候选视频帧中的人脸区域进行表情分析，得到所述人脸区域的表情分析结果，包括：

基于所述头部姿态结果对所述人脸区域进行表情分析，得到所述表情分析结果。

6.根据权利要求1至5任一所述的方法，其特征在于，所述基于所述表情分析结果从所述n帧候选视频帧中确定目标视频帧，包括：

基于所述表情分析结果确定所述n帧候选视频帧的质量参数；

确定所述候选视频帧的多样性参数；

基于所述质量参数和所述多样性参数从所述n帧候选视频帧中确定所述目标视频帧。

7.根据权利要求6所述的方法，其特征在于，所述确定所述候选视频帧的多样性参数，包括：

针对第i帧候选视频帧，确定所述第i帧候选视频帧与所述n帧候选视频中其他候选视频帧之间的距离和，0＜i≤n；

基于所述距离和确定所述第i帧候选视频帧的多样性参数。

8.根据权利要求6所述的方法，其特征在于，所述基于所述表情分析结果确定所述n帧候选视频帧的质量参数，包括：

获取所述候选视频帧的清晰度分析分数、美观度分析分数、人脸位置分析分数，以及与所述表情分析结果对应的表情分数；

将所述清晰度分析分数、所述美观度分析分数、所述人脸位置分析分数以及所述表情分数的加权和确定为所述候选视频帧的质量参数。

9.根据权利要求6所述的方法，其特征在于，所述基于所述质量参数和所述多样性参数从所述n帧候选视频帧中确定所述目标视频帧，包括：

将第m帧候选视频帧的质量参数与第m帧视频帧的多样性参数加权求和，得到第m帧视频帧的素材适配分数，0＜m≤n；

基于n帧视频帧分别对应的素材适配分数，从n帧视频帧中确定所述目标视频帧。

10.根据权利要求1至5任一所述的方法，其特征在于，所述对所述视频帧进行人脸检测，得到包含人脸区域的n帧候选视频帧，包括：

对所述视频帧进行人脸检测，得到包含人脸区域的人脸视频帧；

基于所述人脸视频帧中所述人脸区域的区域参数，对所述人脸视频帧进行筛选，得到所述n帧候选视频帧，所述区域参数包括区域尺寸、区域位置中的至少一种。

11.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

对所述视频帧进行人体检测，得到人体关键点；

基于所述人体关键点确定所述视频帧中的人体状态；

响应于所述人体状态符合人体完整性条件，在所述目标视频流中保留符合所述人体完整性条件的视频帧。

12.一种视频素材图像的选择装置，其特征在于，所述装置包括：

检测模块，用于对所述视频帧进行人脸检测，得到包含人脸区域的n帧候选视频帧，n≥2且n为整数；

确定模块，用于基于所述表情分析结果从所述n帧候选视频帧中确定目标视频帧，作为所述目标视频流的视频素材图像，所述视频素材图像用于作为所述目标视频流的代表性图像。

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的视频素材图像的选择方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一所述的视频素材图像的选择方法。