CN110602554B

CN110602554B - 封面图像确定方法、装置及设备

Info

Publication number: CN110602554B
Application number: CN201910758415.8A
Authority: CN
Inventors: 束磊; 钟伟才; 李弘昊
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Device Co Ltd; Petal Cloud Technology Co Ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2021-01-29
Anticipated expiration: 2039-08-16
Also published as: CN110602554A; US20220309789A1; WO2021031920A1; EP3996381A1; EP3996381A4

Abstract

本申请实施例提供一种封面图像确定方法、装置及设备，该方法可以包括：在视频中提取多个关键帧；在多个关键帧中确定至少一个第一图像，第一图像中包括的主体对象与视频的相关度大于或等于预设阈值；获取每个第一图像中的主体对象的对象类型，对象类型为如下一种：人物类型、物体类型、风景类型或场景类型；根据至少一个第一图像和每个第一图像中的主体对象的对象类型，确定视频的封面图像。提高了确定得到的封面图像的质量。

Description

封面图像确定方法、装置及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种封面图像确定方法、装置及设备。

背景技术

目前，多数终端设备(手机、电脑、电视等)具有视频播放的功能，终端设备可以显示可播放的视频的封面图像，以使用户可以根据视频的封面图像选择视频进行观看。

在实际应用过程中，可以由终端设备确定视频的封面图像，也可以由视频的制作方确定视频的封面图像。在现有技术中，通常将视频的首帧图像确定为视频的封面图像，或者在视频中随机选择一帧图像作为视频的封面图像。然而，通过上述方法确定得到的视频的封面图像的质量通常不高，导致视频的封面图像无法准确的描述视频。

发明内容

本申请提供一种封面图像确定方法、装置及设备，提高了确定得到的封面图像的质量。

第一方面，本申请实施例提供一种封面图像确定方法，该方法可以包括：在视频中提取多个关键帧，在多个关键帧中确定至少一个第一图像，获取每个第一图像中的主体对象的对象类型，根据至少一个第一图像和每个第一图像中的主体对象的对象类型，确定视频的封面图像；其中，第一图像中包括的主体对象与视频的相关度大于或等于预设阈值，对象类型为如下一种：人物类型、物体类型、风景类型或场景类型。

在上述过程中，先在视频中提取多个关键帧，并在多个关键帧中确定至少一个第一图像，并根据至少一个第一图像和每个第一图像中的主体对象的对象类型，确定视频的封面图像。由于第一图像中包括的主体对象与视频的相关度大于或等于预设阈值，且封面图像时根据第一图像确定的，因此，封面图像与视频的相关度较高，使得封面图像可以更加准确的描述视频，提高了确定得到的封面图像的质量。

在一种可能的实现方式中，可以通过如下方式在多个关键帧中确定至少一个第一图像：根据每个关键帧中包括的主体对象，在多个关键帧中确定至少一个第二图像，确定每个第二图像中的主体对象与视频的相关度，并将至少一个第二图像中主体对象与视频的相关度大于或等于预设阈值的图像确定为至少一个第一图像；其中，每个第二图像中包括一个主体对象，第二图像为关键帧中的部分或者全部图像。

在上述过程中，通过上述方法不但可以使得每个第一图像中包括主体对象，还可以使得第一图像中包括的主体对象与与视频的相关度大于或等于预设阈值。

在一种可能的实现方式中，可以通过如下方式确定第二图像中的主体对象与视频的相关度：对视频进行语义分析，以获取视频的语义信息；对第二图像进行对象识别处理，以获取第二图像中的主体对象的对象名称；根据语义信息和对象名称的匹配度，确定第二图像中的主体对象与视频的相关度。

在上述过程中，视频的语义信息可以准确的描述出视频中的内容(情节)，因此，根据对象名称和语义信息的匹配度，可以确定的确定得到第二图像中的主体对象与视频的相关度。

在一种可能的实现方式中，可以通过如下方式确定第二图像中的主体对象与视频的相关度：获取第二图像中的主体对象的对象信息，对象信息包括如下信息中的至少一种：主体对象在视频中的出现次数、主体对象在包括主体对象的视频帧中占的画面比例；根据第二图像中的主体对象的对象信息，确定第二图像中的主体对象与视频的相关度。

在上述过程中，主体对象在视频中的出现次数可以反映出主体对象是否为视频中的主要对象，主体对象在视频中的出现次数越多，该主体对象与视频的相关度越高。主体对象在包括主体对象的视频帧中占的画面比例可以反映出视频中是否对该主体对象进行特写，主体对象在视频帧中所占的画面比例越大，说明视频对主体对象进行的特写越精细，该主体对象与视频的相关度越高。因此，根据主体对象在视频中的出现次数、主体对象在包括主体对象的视频帧中占的画面比例中的一种或多种，可以准确的确定得到主体对象与视频的相关度。

在一种可能的实现方式中，可以通过如下方式根据至少一个第一图像和每个第一图像中的主体对象的对象类型，确定视频的封面图像：获取至少一个封面模板信息，根据每个封面模板信息和每个第一图像中的主体对象的对象类型，在至少一个第一图像中确定每个封面模板信息对应的至少一组目标图像；根据每个封面模板信息和对应的至少一组目标图像，确定视频的封面图像，一个封面图像中包括一组目标图像，其中，封面模板信息用于指示封面图像中包括的图像个数、图像中的主体对象的对象类型和图像的排版方式。

在上述过程中，封面模板信息指示了封面图像中包括的图像个数、图像中的主体对象的对象类型和图像的排版方式，封面模板信息为用户预先设置的，反映了用户对封面图像的预期效果，因此，根据封面模块信息不但可以快速的确定得到视频的封面图像，还可以使得确定得到的封面图像与用户的预期效果相符合。

在一种可能的实现方式中，封面模板信息中包括至少一个图像标识、每个图像标识对应的对象类型、每个图像标识对应的排版信息，其中，排版信息包括图像标识对应的图像的形状、尺寸和位置。

在上述过程中，封面模板信息以文本(代码)的形式存在，当需要修改封面模板信息时，只需对该文本(代码)修改即可，操作简单方便，易于对封面模板信息进行维护。

在一种可能的实现方式中，封面模板信息中包括封面模板图像和封面模板图像中每个图像填充区对应的对象类型，封面模板图像中包括至少一个图像填充区，图像填充区对应的对象类型为图像填充区中待填充的图像中的主体对象的对象类型。

在上述过程中，封面模板信息以图像加文本的形式存在，当需要生成封面图像时，只需将对应的图像填充至封面模本图像中的填充区即可，操作简单方面，使得根据该封面模板信息生成封面图像的效率较高。

在一种可能的实现方式中，针对至少一个封面模板信息中的任意一个封面模板信息，根据封面模板信息和每个第一图像中的主体对象的对象类型，在至少一个第一图像中确定封面模板信息对应的至少一组目标图像，包括：根据封面模板信息确定至少一个目标对象类型和每个目标对象类型对应的图像个数；根据至少一个目标对象类型、每个目标对象类型对应的图像个数和每个第一图像中的主体对象的对象类型，在至少一个第一图像中确定封面模板信息对应的至少一组目标图像。

在上述过程，针对任意一个封面模板信息对应的任意一组目标图像，可以使得该组目标图像与封面模块信息相符合。

在一种可能的实现方式中，根据至少一个目标对象类型、每个目标对象类型对应的图像个数和每个第一图像中的主体对象的对象类型，在至少一个第一图像中确定封面模板信息对应的至少一组目标图像，包括：在至少一个第一图像中获取每个目标对象类型对应的一组第一图像，一个目标对象类型对应的一组第一图像中的主体对象的对象类型为该目标对象类型；分别按照主体对象与视频的相关度从高到低的顺序对每组第一图像进行排序；根据每个目标对象类型对应的图像个数和排序后的每组第一图像，确定至少一组目标图像。

在上述过程中，可以使得至少一组目标图像中的图像与视频的相关度较高。

在一种可能的实现方式中，针对至少一个封面模板信息中的任意一个封面模板信息，根据封面模板信息和对应的至少一组目标图像，确定视频的封面图像，包括：分别根据封面模板信息所指示的排版信息，对每组目标图像进行排版，得到每组目标图像对应的封面图像，一组目标图像对应的封面图像中包括该组目标图像。

在一种可能的实现方式中，可以通过如下方式在视频中提取多个关键帧：视频中提取多个待选帧；获取每个待选帧的参数信息，参数信息包括清晰度、画面亮度和摄影美学；根据每个待选帧的参数信息，在多个待选帧中确定多个关键帧，每个关键帧的清晰度大于或等于预设清晰度，每个关键帧的画面亮度位于第一亮度和第二亮度之间，每个关键帧的构图满足预设美学规则。

在上述过程中，可以使得提取得到的多个关键帧的图像质量较高，进而使得确定得到的封面图像的质量较高。

在一种可能的实现方式中，还可以获取封面图像中包括对象的对象信息，对象信息包括对象的对象类型和/或对象名称，根据对象信息，确定封面图像的标签信息。

在上述过程中，通过为每个封面图像设置标签信息，可以使得根据封面图像的标签信息向不同的用户推荐不同的封面图像。

在一种可能的实现方式中，在确定得到的视频的封面图像的个数大于1时，还可以接收第一用户对应的视频获取请求，视频获取请求用于请求获取视频；获取第一用户的用户信息；根据用户信息，在确定得到的多个封面图像中确定目标封面图像；向第一用户对应的终端设备发送视频和目标封面图像。

在上述过程中，在确定得到的视频的封面图像的个数大于1时，用户可以在该多个封面图像中选择目标封面图像，使得确定目标封面图像的灵活性较高。

第二方面，本申请实施例提供一种封面图像确定装置，所述封面图像确定装置用于执行第一方面任一项所述的方法。

第三方面，本申请实施例提供一种封面图像确定装置，包括存储器和处理器，所述处理器执行所述存储器中的程序指令，用于所述装置实现第一方面任一项所述的封面图像确定方法。

第四方面，本申请实施例提供一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序被计算机或处理器执行时用于实现第一方面任一项所述的封面图像确定方法。

第四方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括指令，当所述指令被执行时，使得计算机执行上述第一方面任一项所述的封面图像确定方法。

第五方面，本申请实施例提供一种芯片上系统或系统芯片，所述芯片上系统或系统芯片可应用于终端设备，所述芯片上系统或系统芯片包括：至少一个通信接口，至少一个处理器，至少一个存储器，所述通信接口、存储器和处理器通过总线互联，所述处理器通过执行所述存储器中存储的指令，使得所述终端设备可执行如本申请第一方面任一所述封面图像确定方法。

本申请实施例提供的封面图像确定方法、装置及设备，先在视频中提取多个关键帧，并在多个关键帧中确定至少一个第一图像，并根据至少一个第一图像和每个第一图像中的主体对象的对象类型，确定视频的封面图像。由于第一图像中包括的主体对象与视频的相关度大于或等于预设阈值，且封面图像时根据第一图像确定的，因此，封面图像与视频的相关度较高，使得封面图像可以更加准确的描述视频，提高了确定得到的封面图像的质量。

附图说明

图1为本申请实施例提供的一种封面图像示意图；

图2A为本申请实施例提供的一种主体对象示意图；

图2B为本申请实施例提供的另一种主体对象示意图；

图2C为本申请实施例提供的又一种主体对象示意图；

图3A为本申请实施例提供的一种图像的示意图；

图3B为本申请实施例提供的另一种图像的示意图；

图4为本申请实施例提供的一种三分线示意图；

图5A为本申请实施例提供的一种应用场景的终端界面示意图；

图5B为本申请实施例提供的另一种应用场景的终端界面示意图；

图5C为本申请实施例提供的又一种应用场景的终端界面示意图；

图6为本申请实施例提供的封面图像确定方法的流程示意图；

图7为本申请实施例提供的又一种图像示意图；

图8为本申请实施例提供的再一种图像示意图；

图9为本申请实施例提供的又一种封面图像示意图；

图10A为本申请实施例提供的一种封面模板图像的示意图；

图10B为本申请实施例提供的另一种封面模板图像的示意图；

图10C为本申请实施例提供的又一种封面模板图像的示意图；

图10D为本申请实施例提供的再一种封面模板图像的示意图；

图11为本申请实施例提供的另一种封面图像确定方法的流程示意图；

图12为本申请实施例提供的一种封面图像确定方法的架构图；

图13为本申请实施例提供的一种终端设备的界面图；

图14为本申请实施例提供的封面图像确定装置的结构示意图；

图15为本申请实施例提供的终端设备的结构示意图。

具体实施方式

为了便于理解，首先对本申请所涉及的概念进行说明。

封面图像：还可以称为视频的封面图像，例如，可以是指终端设备展示非播放状态的视频时所显示的图像。下面，结合图1，对封面图像进行说明。图1为本申请实施例提供的一种封面图像示意图。请参见图1，终端设备当前显示的页面为视频列表页面，视频列表页面中的视频列表中包括4个视频，分别记为视频1、视频2、视频3和视频4。终端设备在视频列表页面中显示的4个图像即为该4个视频的封面图像，例如，终端设备显示的第一个图像(第一行第一列所示的图像)为视频1的封面图像，终端设备显示的第二个图像(第一行第二列所示的图像)为视频2的封面图像。终端设备可以为手机、电脑、车载设备、可穿戴设备、工业设备、人工智能设备/增强现实(augmented reality，AR)设备、虚拟现实(virtualreality，VR)设备等。

主体对象：还可以称为显著性对象，是指图像中包括的较为显著的对象，即，在用户观察一张图像时，用户的注意力(或者兴趣点)会聚焦于主体对象。主体对象可以为人物、物体(例如，飞机、汽车、鲜花、钻戒、教堂等)、风景、场景等。一张图像中包括的主体对象可以为一个或者多个。下面，结合图2A-图2C，对图像中的主体对象进行说明。图2A为本申请实施例提供的一种主体对象示意图。请参见图2A，原图像1中包括三个人物和一些背景，该三个人物分别记为人物1、人物2和人物3。用户在看到原图像1时，用户通常会关注人物2和人物3，根据用户喜欢的不同，用户的关注的对象可能有所差异，例如，用户可能仅关注人物2，或者，用户可能同时关注人物2和人物3，或者，用户可能仅关注人物3。因此，在原图像1中确定得到的主体对象可以为：图像11中包括的人物2和人物3，或者图像12中包括的人物2，或者图像13中包括的人物3。图2B为本申请实施例提供的另一种主体对象示意图。请参见图2B，原图像2为一张风景图像，在用户看到该原图像2时，用户会关注该整体的风景，因此，该原图像2中的主体对象可以为整个风景，即，在原图像2中确定得到的主体对象可以为图像21中的风景。图2C为本申请实施例提供的又一种主体对象示意图。请参见图2C，原图像3中包括一束鲜花，在用户看到该原图像3时，用户会关注该一束鲜花，因此，该原图像3中的主体对象可以为该一束鲜花，即，在原图像3中确定得到的主体对象可以为图像31中的一束鲜花。

主体对象与视频的相关度：是指主体对象对视频的情节发展的贡献程度，主体对象对视频的情节发展的贡献越大，则该主体对象与视频的相关度越高。例如，假设一个视频为人物类型的视频，则视频中的主角与视频的相关度较高。例如，假设一个视频的故事情节为结婚过程，在视频的结婚现场中存在一把椅子，该椅子对结婚情节发展没有任何影响，则该椅子与视频的相关度较低。

清晰度：是指图像中各细部影纹及其边界的清晰程度。图像的清晰度与图像在横向和纵向的梯度相关，例如，可以通过如下公式确定图像的清晰度：

其中，(Δ_xI_gray)²为图像在横向(x方向)的梯度，(Δ_yI_gray)²为图像在纵向(y方向)的梯度。

图像亮度：是指图像所呈现的画面的明亮程度。可以获取图像中像素的亮度，并根据图像中像素的亮度确定图像的亮度。可以根据像素的R值、G值和B值确定像素的亮度，例如，像素的亮度可以为：0.229×R值+0.587×G值+0.114×B值。可以将图像中像素的亮度的平均值确定为图像亮度。为了降低计算量，可以根据图像中部分像素的亮度确定图像亮度，例如，在图像中均匀的抽取50％的像素，根据该50％的像素的亮度确定图像亮度。当然，还可以通过其它方式确定图像亮度，本申请对此不作具体限定。

构图：还可以称为图像的结构，是指图像中的对象在图像中的分布结构。可以通过图像的平衡性、图像中的主体对象是否靠近三分线、图像中的主体对象是否靠近中间等衡量图像是否具有较好的构图。

图像的平衡性是指图像中的对象(人物、动物、物体等)在图像中的分布是否均匀，若图像中的对象集中分布在图像中的一个区域，图像中的另一个区域为空白，则该图像的均衡性较差，若图像中的对象均匀的分布在图像中的各个区域，则该图像的平衡性较好。均衡性越好，则图像的构图越好。下面，结合图3，对图像的平衡性进行说明。图3A为本申请实施例提供的一种图像的示意图。图3B为本申请实施例提供的另一种图像的示意图。请参见图3A，图像中3A中包括3个对象，分别为圆形、五角星和六边形，该三个对象集中的分布在图像中的一个区域，图像的其它区域为空白，则该图像3A的均衡性较差。请参见图3B，图像中3B中包括3个对象，分别为圆形、五角星和六边形，该三个对象均匀的分布在图像中的各个区域，则该图像3B的均衡性较好。

图像的三分线，包括上三分线、下三分线、左三分线和右三分线。下面，结合图4，对图像的三分线进行说明。图4为本申请实施例提供的一种三分线示意图。请参见图4，图像在纵向部分可以被直线L3和直线L4平均分为3份，其中，L3为图像的上三分线，L4为图像的下三分线。请参见图4，图像在横向部分可以被直线L1和直线L2平均分为3份，其中，L1为图像的左三分线，L2为图像的右三分线。若图像中的主体对象位于图像的三分线附近，则该图像的构图较好。

视频的语义信息：是指用于描述视频中的内容(剧情)的信息，视频的语义信息中还可以视频的类型，视频的类型可以为爱情类型、战争类型、体育类型、搞笑类型等。例如，假设一个视频为一段求婚视频，则该视频的语义信息可以包括：爱情视频，在礼堂中布置了鲜花和蜡烛，人物1向人物2献鲜花，人物1给人物2带钻戒。

为了便于理解，下面，结合图5A-图5B介绍本申请可适用的应用场景。

图5A为本申请实施例提供的一种应用场景的终端界面示意图。请参见图5A，终端设备为手机，终端界面包括界面A1-界面A6。

请参见界面A1，手机的桌面上显示多个应用程序的图标。当用户需要拍摄视频时，用户可以点击摄像机应用程序的图标，以使手机启动摄像机。

请参见界面A2，界面A2中手机的摄像界面，摄像界面中包括摄像操作图标，用户可以对摄像操作图标进行点击操作，以使摄像机启动摄像。

请参见界面A3，界面A3中显示的画面为拍摄过程中所拍摄到的一张画面。

请参见界面A4，当用户摄像结束时，可以对摄像操作图标进行点击操作，以使摄像机暂停摄像。

请参见界面A5，当用户需要查看拍摄的视频列表时，用户可以对界面A5中的视频列表图像进行点击操作，以使手机显示本地的视频列表。

请参见界面A6，手机显示视频列表，视频列表中包括刚拍摄的视频(视频2)。假设用户在进行视频2的拍摄过程中，重点拍摄了高山的风景以及雕塑的细节，则手机可以根据拍摄的视频2中的内容，确定视频2的封面图像，视频2的封面图像中包括高山的风景和雕塑的细节，该封面图像可以真实的体现出视频2的内容。

图5B为本申请实施例提供的另一种应用场景的终端界面示意图。请参见图5B，终端设备为手机，终端界面包括界面B1-界面B6，界面B1-界面B5为用户小花的手机中的界面，界面B6为用户小红的手机中的界面。

请参见界面B1，用户小花可以通过手机中的应用程序查看好友圈，小花的好友圈中包括小花的好友发布的消息。小花还可以通过手机发布消息，例如，小花可以通过手机发布视频，当小花需要发布视频时，可以对界面B1中的“发布视频”图标进行点击操作，以使手机启动摄像机进行拍摄。

请参见界面B2-界面B4，为用户小花拍摄视频的过程，该过程可以参见图3实施例中的拍摄过程，此处不再进行赘述。

请参见界面B5，假设图4实施例中拍摄的视频与图3实施例中的视频2相同，则手机可以生成该视频的封面图像，该视频的封面图像与图3实施例中确定得到的视频2的封面图像相同，此处不再进行赘述。手机展示视频的封面图像，用户可以对添加文字，并对“发布”图标进行点击操作，以实现发布该视频。

请参见界面B6，在小花的好友小红通过小红的手机查看好友圈时，小红可以看到小花发布的视频，该视频的封面图像如界面B6所示，该封面图像可以真实的体现出视频2的内容。可选的，为了区分好友圈中的视频和图像，可以在视频的左下角增加视频图标。

图5C为本申请实施例提供的又一种应用场景的终端界面示意图。请参见图5C，终端设备为手机，终端界面包括界面C1-界面C4。

请参见界面C1，假设手机中安装有短视频APP，用户可以通过短视频APP发布视频，或者通过短视频APP观看自己发布的或者其它用户发布的短视频。当用户需要通过短视频APP发布短视频时，用户可以对界面C1中的“发布视频”图标进行点击操作，以使手机显示界面C2。

请参见界面C2，包括“拍摄”图标和“本地选择”图标，用户可以点击“拍摄”图标以使手机拍摄视频并发布拍摄得到的视频，用户可以点击“本地选择”图标以实现发布手机本地存储的视频。假设用户需要发布一个手机本地存储的视频，则用户可以点击“本地选择”图标，以使手机显示界面C3。

请参见界面C3，手机显示本地视频库，本地视频库中包括视频1和视频2，假设视频2与图3实施例中的视频2相同，手机在本地展示该视频2时，将视频2中的首帧作为视频2的封面图像，该封面图像无法真实的体现出视频2中的真实内容。假设用户需要发布视频2，则用户可以在本地视频库中选择视频2，以使手机将视频2发送至短视频服务器。

短视频服务器接收到视频2之后，根据视频2中的内容确定视频2的封面图像，并发布视频2，假设短视频服务器确定得到的视频2的封面图像与图3实施例所示的视频2的封面图像相同。

请参见界面C4，在短视频服务器对视频2发布成功之后，用户可以在手机中查看发布成功的视频2，该视频2的封面图像如界面C4所示，该封面图像可以真实的体现视频2中的内容。

需要说明的是，图5A-图5C只是以示例的形式示意几种可能的应用场景，并非对应用场景的限定。例如，在上述应用场景中，还可以确定得到多个视频封面，由用户在多个视频封面中选择一个或者多个视频封面。

下面，通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是，如下实施例可以单独存在，也可以相互结合，对于相同或相似的内容，在不同的实施例中不再重复说明。

图6为本申请实施例提供的封面图像确定方法的流程示意图。请参见图6，该方法可以包括：

S601、获取视频。

本申请实施例的执行主体可以为终端设备、服务器，也可以为设置在终端设备或者服务器中的封面图像确定装置。可选的，封面图像确定装置可以通过软件实现，也可以通过软件和硬件的结合实现。

可选的，可以在用户的触发下开始执行图6所示的实施例。当应用场景不同时，用户触发执行图6所示的实施例的方式也不同。例如，当应用场景为图3实施例所示的应用场景时，在用户对界面304中的摄像操作图像进行点击操作之后，手机获取得到拍摄的视频，并通过图6所示的方法对该视频进行处理。例如，当应用场景为图4实施例所示的应用场景时，在用户对界面404中的摄像操作图像进行点击操作之后，手机获取得到拍摄的视频，并通过图6所示的方法对该视频进行处理。例如，当应用场景为图5实施例所示的应用场景时，在短视频服务器接收到手机发送的视频2之后，通过图6所示的方法对该视频进行处理。

当图6所示的实施例的执行主体为终端设备时，终端设备可以通过如下实现方式获取视频：终端设备通过摄像装置拍摄得到视频，或者，终端设备接收其它设备发送的视频，或者，终端设备在网络上下载视频等。

当图6所示的实施例的执行主体为服务器时，服务器可以通过如下实现方式获取视频：服务器接收终端设备发送的视频，或者，服务器接收工作人员在服务器中存储的视频，或者，服务器生成视频(例如对已有视频进行剪辑得到的视频)等。

S602、在视频中提取多个关键帧。

其中，多个关键帧中的每个关键帧可以满足如下特性：关键帧的清晰度大于或等于预设清晰度，关键帧的画面亮度在第一亮度和第二亮度之间，关键帧的构图满足预设美学规则。例如，预设美学规则可以包括如下一种或多种：图像的平衡性大于预设平衡度，图像中的主体对象在图像中的位置靠近三分线位置，图像中的主体对象在图像中的位置靠近图像的中心位置，其中，后边两种美学规则不同时存在。

可选的，可以通过如下可行的实现方式在视频中提取多个关键帧：在视频中提取多个待选帧，获取每个待选帧的参数信息，并根据每个待选帧的参数信息，在多个待选帧中确定多个关键帧。待选帧的个数大于关键帧的个数。

可以通过如下可行的实现方式在视频中提取多个待选帧：

一种可行的实现方式：在视频中随机提取多个待选帧。

在实际应用过程中，可以预设待选帧的个数，或者，还可以根据视频的长短、进行封面图像确定的设备(例如，终端设备或者处理器)的处理能力确定在视频中提取的待选帧的个数。例如，视频越长，在视频中提取的待选帧的个数越多，进行封面图像确定的设备的处理能力越强，在视频中提取的待选帧的个数越多。

在该种可行的实现方式中，因为多个待选帧为在视频中随机提取的，因此，可以快速在视频中提取该多个待选帧。

另一种可行的实现方式：在视频中等间隔的提取多个待选帧。

可以先确定视频中包括的总帧数、以及待选帧的个数，并根据总帧数和待选帧的个数，在视频中等间隔的提取多个待选帧。例如，假设视频中的总帧数为1000帧，待选帧的个数为100帧，则每间隔10帧选择一个待选帧，比如，可以将视频中的第1帧、第11帧、第21帧、31帧等确定为待选帧，或者，将视频中的第2帧、第12帧、第22帧、32帧等确定为待选帧。

在该种可行的实现方式中，由于在视频中等间隔的提取多个待选帧，这样，不但可以使得提取得到的待选帧中的画面能够更全面的描述视频中的内容，还可以使得待选帧中出现重复帧的概率较小。

再一种可行的实现方式：将视频分段，在每段视频中提取多个待选帧。

每段视频中包括的视频帧的个数相同(或者不同视频段中包括的视频帧的个数的差值小于第一阈值)，或者每段视频的播放时长相同(或者不同视频段的播放时长的差值小于第二阈值)。可以预先设置视频段的段数，例如，视频段的段数可以为5段、8段、10段等。在将视频分段之后，可以在每段视频中随机提取多个待选帧。

可以根据待选帧的个数和视频段的段数，确定在每段视频中提取的待选帧的个数。例如，假设需要在视频中提取100个待选帧，视频段的个数为10段，则在每段视频中随机提取10帧作为待选帧。

在该种可行的实现方式中，由于在每段视频中随机提取待选帧，因此，不但可以使得获取待选帧的效率较高，还可以使得待选帧中出现重复帧的概率较小。

待选帧的参数信息可以包括清晰度、画面亮度、摄影美学中的一个或多个，当然，待选帧的参数信息还可以包括其它，本申请实施例对此不作具体限定。可选的，可以将待选帧中清晰度大于或等于预设清晰度，画面亮度在第一亮度和第二亮度之间，构图满足预设美学要求的待选帧确定为关键帧。可选的，若满足上述要求的待选帧的个数大于所需的关键帧的个数，则可以根据待选帧在视频中的位置，均匀的抽取满足上述要求的待选帧作为关键帧，这样，不但可以使得提取得到的关键帧中的画面能够更全面的描述视频中的内容，还可以使得关键帧中出现重复帧的概率较小。

可选的，在确定得到多个关键帧之后，可以通过聚类、相似度检测等方法，在多个关键帧中去除重复的关键帧。

S603、在每个关键帧中确定主体对象。

在每个关键帧中确定主体对象的过程相同，下面，以在任意一个关键帧中确定主体对象的过程为例进行说明。

可以先确定主体对象检测模型，并根据主体对象检测模型确定关键帧中的主体对象。可选的，可以对多组样本进行学习以得到主体对象检测模型，每组样本中包括样本图像和样本图像中的样本主体对象，该样本主体对象可以为人工标记的，人工在样本图像中标记的样本主体对象的个数可以为一个，也可以为多个。可以通过样本主体对象在样本图像中的位置(例如，像素位置)表示样本主体对象。

在通过主体对象检测模型确定关键帧的主体对象时，可以将表示关键帧的数据输入至主体对象检测模型，主体对象检测模型对表示关键帧的数据进行处理，并输出表示主体对象的数据。表示关键帧的数据可以为关键帧本身(图像)，也可以为关键帧的灰度图像等。表示主体对象的数据可以为主体对象在关键帧中的位置(例如像素位置)，也可以为包括主体对象的部分图像。

可选的，在一个关键帧中可以确定得到一个或多个主体对象，或者，也可能无法在一个关键帧中确定得到主体对象，即，在一个关键帧中确定得到的主体对象的个数可能为0个、1个或者多个。例如，请参见图2A，当关键帧为图2A中的原图像1时，则可以在关键帧中确定得到3个主体对象。例如，请参见图2B-图2C，当关键帧为图2B中的原图像2或者图2C中的原图像3时，则可以在关键帧中确定得到1个主体对象。例如，假设一张图像中包括多个对象，该多个对象的大小相近，且在图像中的位置杂乱无序，则可能无法在该图像中确定得到主体对象。例如，图7为本申请实施例提供的又一种图像示意图。请参见图7，图像中包括多个对象，该对个对象的大小相近且在图像中的位置杂乱无序，则在图7所示的图像中可能无法确定得到主体对象。

S604、根据每个关键帧中包括的主体对象，在多个关键帧中确定至少一个第二图像。

其中，一个第二图像中包括一个主体对象，第二图像为关键帧中的部分或者全部图像。

例如，请参见图2A，当关键帧为图2A中的原图像1时，则可以在关键帧中确定得到3个第二图像，该3个第二图像分别为图像11、图像12和图像13。例如，请参见图2B，当关键帧为图2B中的原图像2时，则可以在关键帧中确定得到1个第二图像，该1个第二图像为图像21。例如，请参见图2C，当关键帧为图2C中的原图像3时，则可以在关键帧中确定得到1个第二图像，该1个第二图像为图像31。

S605、确定每个第二图像中的主体对象与视频的相关度。

确定每个第二图像中的主体对象与视频的相关度的过程相同，下面，以确定任意一个第二图像中的主体对象与视频的相关度的过程为例进行说明。

可选的，可以通过至少如下两种可行的实现方式确定第二图像中的主体对象与视频的相关度：

一种可行的实现方式：

对视频进行语义分析，以获取视频的语义信息，对第二图像进行对象识别处理，以获取第二图像中的主体对象的对象名称，根据语义信息和对象名称的匹配度，确定第二图像中的主体对象与视频的相关度。

可以通过如下可行的实现方式获取视频的语义信息：可以获取视频对应的文本信息、对视频帧进行语义识别得到的图像语义信息中的至少一种，并根据文本信息和图像语义信息中的至少一种确定视频的语义信息。其中，文本信息中包括字幕(通常为视频中人物的对话内容)、在视频帧中提取的文本(例如视频画面中某建筑上的文本等)等。若视频文件中包括字幕，则可以在视频文件中获取字幕，若视频文件中不包括字幕，则可以对视频中的语音信息进行语音识别以获取字幕，或者对视频帧中的文本进行识别以获取字幕。

可以通过语义识别模型获取视频的语义信息，语义识别模型可以为对多组样本进行学习得到的，其中，每组样本包括样本视频和样本语义信息，该样本语义信息可以为人工标注的语义信息。在通过语义识别模型获取视频的语义信息时，将该视频输入至语义识别模型，语义识别模型可以输出该视频的语义信息。

对象名称可以为人物标识、物体名称、风景名称、场景名称等。例如，人物标识可以为人物1、人物2等。物体名称可以为汽车、飞机、鲜花、钻戒、礼堂等。风景名称可以为高山、沙滩、海洋、雪景等。场景名称可以为婚礼、打斗、体育、室内等。

可以通过对象识别模型获取对象名称，对象识别模型可以为对多组样本进行学习得到的，其中，每组样本包括样本图像(样本图像中包括样本对象)和样本对象名称，该样本对象名称可以为人工标注的对象名称。在通过对象识别模型获取图像中对象的对象名称，将图像输入至对象识别模型，对象识别模型可以输出该图像中对象的对象名称。可选的，每组样本中还可以包括样本对象类型，相应的，对象识别模型还可以输出对象的对象类型。

可以通过如下可行的实现方式获取对象名称和语义信息的匹配度：对语义信息进行分词处理，得到语音信息中的多个词汇，获取对象名称与语义信息中各词汇的相似度，根据对象名称与语义信息中各词汇的相似度确定对象名称和语义信息的匹配度，例如，可以在对象名称与语义信息中各词汇的相似度中确定最大相似度，并将该最大相似度确定为对象名称与语义信息的匹配度。或者，还可以获取对象名称的同义词，获取对象名称和对象名称的同义词在语义信息中的出现次数，根据该出现次数确定对象名称和语义信息的匹配度，对象名称和对象名称的同义词在语义信息的出现次数越多，则对象名称与语义信息的匹配度越高。当然，还可以通过其它方式确定对象名称与语义信息的匹配度，本申请实施例对此不作具体限定。

例如，假设视频的语义信息为：爱情视频，在礼堂中布置了鲜花和蜡烛，人物1向人物2献鲜花，人物1给人物2带钻戒。则对象名称“鲜花”和该语义信息的匹配度较高，对象名称“点灯”和该语义信息的匹配度较低。

第二图像中的主体对象的对象名称与语义信息的匹配度，与第二图像中的主体对象与视频的相关度正相关，即，第二图像中的主体对象的对象名称与语义信息的匹配度越高，第二图像中的主体对象与视频的相关度越高。

在该种可行的实现方式中，视频的语义信息可以准确的描述出视频中的内容(情节)，因此，根据对象名称和语义信息的匹配度，可以确定的确定得到第二图像中的主体对象与视频的相关度。

另一种可行的实现方式：

获取第二图像中的主体对象的对象信息，根据第二图像中的主体对象的对象信息，确定第二图像中的主体对象与视频的相关度。其中，对象信息可以包括如下信息中的至少一种：主体对象在视频中的出现次数、主体对象在包括主体对象的视频帧中占的画面比例。

主体对象在视频中的出现次数可以为包括主体对象的帧数。为了减少计算量，可以在视频中抽取部分视频帧，将该部分视频帧中包括主体对象的帧数确定为出现次数。

主体对象在包括主体对象的视频帧中占的画面比例可以为：主体对象所在的最小矩形框的面积与视频帧的面积的比值。或者，主体对象在包括主体对象的视频帧中占的画面比例可以为：主体对象所在的最小矩形框的横向尺寸与所述视频帧的横向尺寸的比值，与主体对象所在的最小矩形框的纵向尺寸与所述视频帧的纵向尺寸的比值中的最大值。最小矩形框是指能够包含主体对象的最小的矩形框。

下面，结合图8，对主体对象在包括主体对象的视频帧中占的画面比例进行说明。图8为本申请实施例提供的再一种图像示意图。请参见图8，图像(视频帧)的横向尺寸为W1，纵向尺寸为H1。该图像中包括一束鲜花，该鲜花所在的最小矩形框如图8中的矩形框所示，最小矩形框的横向尺寸为W2，纵向尺寸为H2，则主体对象(一束鲜花)在该图像中的画面比列可以为(W2*H2)/(W1*H1)，或者，主体对象(一束鲜花)在该图像中的画面比列可以为W2/W1与H2/H1中的最大值。

可选的，可以分别获取主体对象在每个包括主体对象的视频帧中的画面比例，得到多个画面比例，并将该多个画面比例的平均值确定为该主体对象在视频帧中的画面比例。

当对象信息包括出现次数和画面比例时，可以分别设置出现次数和画面比例的权重值，根据出现次数、出现次数的权重值、画面比例和画面比例的权重值确定主体对象和视频的相关度。例如，假设出现次数为m，出现次数的权重值为a1，画面比例为n，画面比例的权重值为a2，则主体对象和视频的相关度为：m*a1+n*a2，可选的，还可以对m*a1+n*a2进行归一化处理，得到主体对象和视频的相关度。

在该种可行的实现方式中，主体对象在视频中的出现次数可以反映出主体对象是否为视频中的主要对象，主体对象在视频中的出现次数越多，该主体对象与视频的相关度越高。主体对象在包括主体对象的视频帧中占的画面比例可以反映出视频中是否对该主体对象进行特写，主体对象在视频帧中所占的画面比例越大，说明视频对主体对象进行的特写越精细，该主体对象与视频的相关度越高。因此，根据主体对象在视频中的出现次数、主体对象在包括主体对象的视频帧中占的画面比例中的一种或多种，可以准确的确定得到主体对象与视频的相关度。

需要说明的是，上述只是以示例的形式示意确定主体对象与视频的相关度的方式，当然，在实际应用过程中，还可以通过其它可行的实现方式确定主体对象与视频的相关度，本申请实施例对此不作具体限定。

S606、根据每个第二图像中的主体对象与视频的相关度，在至少一个第二图像中确定至少一个第一图像。

其中，第一图像中包括的主体对象与视频的相关度大于或等于预设阈值。

可选的，可以通过如下可行的实现方式在至少一个第二图像中确定至少一个第一图像：

一种可行的实现方式：

将主体对象与视频的相关度大于或等于预设相关度阈值的第二图像确定为至少一个第一图像。

在该种可行的实现方式中，可以快速的在至少一个第二图像中确定得到至少一个第一图像。

另一种可行的实现方式：

按照主体对象与视频的相关度从高到低的顺序，对至少一个第二图像进行排序，将排序后的第二图像中前N个第二图像确定为至少一个第一图像。N为大于或等于1的整数。

在该种可行的实现方式中，可以根据实际需要设置N的大小，不但可以快速确定得到至少一个第一图像，还可以使得选取的第一图像的个数的灵活性较高。

再一种可行的实现方式：

确定每个主体对象的对象类型，分别按照主体对象与视频的相关度从高到低的顺序，对每种对象类型的第二图像进行排序，分别将每种对象类型对应的第二图像中的前M个第二图像确定为第一图像。M为大于或等于1的整数。

对象类型为如下一种：人物类型、物体类型、风景类型或场景类型。例如，可以对主体对象进行图像识别，以得到主体对象的对象类型。

例如，可以对对象类型为人物类型的多张第二图像进行排序，并将排序后的该多张第二图像中的前M张图像确定为人物类型对应的第一图像。可以对对象类型为风景类型的多张第二图像进行排序，并将排序后的该多张第二图像中的前M张图像确定为风景类型对应的第一图像。

在该种可行的实现方式中，可以使得确定得到的至少一种图像中包括每种对象类型对应的图像。

S607、获取每个第一图像中的主体对象的对象类型。

可选的，可以通过S605中所示的对象识别模型获取第一图像中的主体对象的对象类型，此处不再进行赘述。

需要说明的是，若在S608之前的步骤中已经获取得到第一图像(或者第二图像)中的主体对象的对象类型，则无需执行S608。

S608、获取至少一个封面模板信息。

其中，一个封面模板信息用于指示封面图像中包括的图像个数、图像中的主体对象的对象类型和图像的排版方式。

封面模板信息可以为预设的。获取到的封面模板信息的个数可以为1个也可以为多个。在实际应用过程中，在有的应场景下，需要确定视频的一个封面图像，在有的应用场景下，需要确定视频的多个封面图像。例如，在图5A-图5C所示的应用场景下，需要确定视频的一个封面图像。例如，当应用场景为向用户推荐多个封面图像，以使用户在该多个封面图像中选择所需的封面图像时，或者应用场景为向不同的用户展示不同的封面图像时，则需要确定视频的多个封面图像。当需要确定视频的一个封面图像时，则获取的封面模板信息的个数为1个，当需要确定视频的多个封面图像时，则获取的封面模板信息的个数为1个或者多个。

可选的，可以通过如下两种可行的实现方式获取至少一个封面模板信息：

一种可行的实现方式：根据视频的类型获取至少一个封面模板信息。

可选的，可以为不同类型的视频设置不同的封面模板信息，相应的，可以获取视频的类型，并根据视频的类型获取封面模板信息。例如，视频的类型可以包括爱情类型、战争类型、恐怖类型、搞笑类型等。

在该种可行的实现方式中，为不同类型的视频设置不同的封面模型信息，相应的，根据视频的类型获取得到的封面模板信息更适合于视频。

另一种可行的实现方式：根据用户的用户信息获取至少一个封面模板信息。

可选的，该用户可以是指请求生成封面图像的用户，也可以为封面图像待展示至的用户。例如，当应用场景为图5A所示的应用场景时，则用户可以是指拍摄视频的用户。当应用场景为图5B所示的应用场景时，则用户可以是小花，也可以为小花的好友小红和小明等。

需要说明的是，当视频待展示至的用户为不确定的用户时，则可以根据视频的类型获取封面模板信息，或者获取所有预设的封面模板信息。

可选的，用户信息中包括用户喜欢的对象类型。例如，用户喜欢的对象类型包括人物类型、风景类型等。

可以将用户信息与封面模板信息所指示的对象类型进行匹配，将与用户信息的匹配度大于预设阈值的封面模型信息确定为至少一个封面模板信息。

在该种可行的实现方式中，根据用户的用户信息获取至少一个封面模板信息，可以使得根据封面模板信息生成的封面图像更加符合用户的要求。

可选的，封面模板信息可以为如下任意一种形式：

一种可能的形式：封面模板信息以文本(或代码)的形式存在。

封面模板信息中包括至少一个图像标识、每个图像标识对应的对象类型、每个图像标识对应的排版信息。其中，排版信息包括图像标识对应的图像的形状以及在封面图像中的位置。

例如，封面模板信息可以如表1所示：

表1

图像标识	对象类型	排版信息
			图像1	风景	矩形，占封面图像100％
图像2	雕塑	矩形，位于图像1之上，位于(a1，b1)至(a2，b2)

根据表1可知，封面图像中需要包括两张图像，分别记为图像1和图像2。图像1中的主体对象为风景，图像1在封面图像中的形状为矩形，且图像1占据了整个封面图像。图像2中的主体对象为雕塑，图像2在封面图像中的形状为矩形，图像2在封面图像中的位置为坐标(a1，b1)与坐标(a2，b2)构成的矩形区域，坐标(a1，b1)和坐标(a2，b2)为矩形区域的一条对角线的两个端点的坐标，例如，坐标(a1，b1)可以为矩形区域的左上角的坐标，坐标(a2，b2)可以为矩形区域的右下角的坐标。

表1只是以示例的形式示意一种封面模板信息，当然，封面模板信息还可以为其它，本申请实施例对此不作具体限定。

下面，结合图9，通过具体示例对根据上述封面模板信息进行说明。

图9为本申请实施例提供的又一种封面图像示意图。请参见图9，图像1和图像2分别如图9所示，假设封面模板信息如表1所示，则根据封面模板信息对图像1和图像2进行排版，得到图9所示的封面图像。其中，在图9所示的封面图像中，图像1占据整个封面图像，图像2位于图像1之上，且图像2所在矩形区域的左上角坐标为(a1，b1)、右下角坐标为(a2，b2)。

另一种可能的形式：封面模板信息以图像加文本的形式存在。

封面模板信息中包括封面模板图像，封面模板图像中包括至少一个图像填充区，封面模板信息中还包括每个图像填充区对应的对象类型。图像填充区对应的对象类型是指，该图像填充区中待填充的图像中的主体对象的对象类型。

下面，结合图10A-图10D，对封面模板图像进行说明。

图10A为本申请实施例提供的一种封面模板图像的示意图。请参见图10A，封面模板图像1中包括两个填充区，分别记为填充区1和填充区2，该两个填充区之间以分割线进行分割。假设封面模板信息指示填充区1用于填充主体对象为人物的图像，以及指示填充区2中用于填充主体对象为人物的图像。根据该封面模板图像1得到的封面图像可以如封面图像1所示。

图10B为本申请实施例提供的另一种封面模板图像的示意图。请参见图10B，封面模板图像2中包括三个填充区，分别记为填充区1、填充区2和填充区3，该三个填充区之间以分割线进行分割。假设封面模板信息指示填充区1用于填充主体对象为人物的图像，以及指示填充区2中用于填充主体对象为人物的图像，以及指示填充区3中用于填充主体对象为人物的图像。根据该封面模板图像2得到的封面图像可以如封面图像2所示。

图10C为本申请实施例提供的又一种封面模板图像的示意图。请参见图10C，封面模板图像3中包括两个填充区，分别记为填充区1和填充区2，该两个填充区之间以渐变蒙版过渡。假设封面模板信息指示填充区1用于填充主体对象为人物的图像，以及指示填充区2中用于填充主体对象为人物的图像。根据该封面模板图像3得到的封面图像可以如封面图像3所示，其中，封面图像3中的两张图像之间以渐变蒙版过渡。

图10D为本申请实施例提供的再一种封面模板图像的示意图。请参见图10D，封面模板图像4中包括两个填充区，分别记为填充区1和填充区2，该两个填充区之间以分割线进行分割。假设封面模板信息指示填充区1用于填充主体对象为人物的图像，以及指示填充区2中用于填充主体对象为人物的图像。根据该封面模板图像4得到的封面图像可以如封面图像4所示。

S609、根据每个封面模板信息和每个第一图像中的主体对象的对象类型，在至少一个第一图像中确定每个封面模板信息对应的至少一组目标图像。

可选的，假设需要确定X个封面图像，则需要确定X组目标图像，X为大于或等于1的整数。假设在S608中获取得到的封面模板信息的个数为T个，则可以获取每个封面模板信息对应的X_i组目标图像，

例如，假设需要确定10个封面图像，则需要确定10组目标图像，假设获取得到的封面模板信息的个数为2个，分别记为封面模板信息1和封面模板信息2，则可以获取封面模板信息1对应的5组目标图像，以及获取封面模板信息2对应的5组目标图像，或者，获取封面模板信息1对应的6组目标图像，以及获取封面模板信息2对应的4组目标图像。例如，假设需要确定1个封面图像，则在S608中只需获取一个封面模板信息，且在S609中只需确定一组目标图像。

确定每个封面模板信息对应的至少一组目标图像的过程相同，下面，以确定任意一个封面模板信息对应的至少一组目标图像的过程为例进行说明。

可选的，针对任意一个封面模板信息，可以根据封面模板信息确定至少一个目标对象类型和每个目标对象类型对应的图像个数，并根据至少一个目标对象类型、每个目标对象类型对应的图像个数和每个第一图像中的主体对象的对象类型，在至少一个第一图像中确定封面模板信息对应的至少一组目标图像。其中，至少一个目标对象类型是指，根据封面模板信息确定得到的封面图像中包括的主体对象的对象类型，目标对象类型对应的图像个数是指，根据封面模板信息确定得到的封面图像中包括的对象类型为目标对象类型的主体对象的个数。

可以通过如下两种可行的实现方式，根据封面模板信息确定至少一个目标对象类型和每个目标对象类型对应的图像个数：

一种可行的实现方式：封面模板信息以S608中的一种可能的形式存在。

在该种可行的实现方式中，可以根据封面模板信息中包括的至少一个图像标识和每个图像标识对应的对象类型，确定至少一个目标对象类型，和每个目标对象类型对应的图像个数。例如，假设封面模板信息如表1所示时，则根据表1可以确定得到目标对象类型为风景类型和人物类型，风景类型对应的图像个数为1，人物类型对应的图像个数为2。

另一种可行的实现方式：封面模板信息以S608中的另一种可能的形式存在。

在该种可行的实现方式中，可以根据封面模板图像中每个填充区对应的对象类型，确定至少一个目标对象类型和每个目标对象类型对应的图像个数。例如，假设封面模板图像如图10A所示时，则可以确定得到目标对象类型为人物类型，人物类型对应的图像个数为2。假设封面模板图像如图10B所示时，则可以确定得到目标对象类型为人物类型，人物类型对应的图像个数为3。

针对任意一个封面模板信息，根据该封面模板信息确定得到K个目标对象类型，第j个目标对象类型对应的图像个数为Y_j，则该封面模板信息对应的任何一组目标图像中包括K个对象类型，第j个对象类型对应的图像个数为Y_j。例如，假设根据封面模板信息确定2个目标对象类型，分别为风景类型和人物类型，假设风景类型对应1个图像，人物类型对应2个图像，则该封面模板信息对应的任何一组目标图像中均包括1个风景类型的图像和2个人物类型的图像。

可以通过如下可行的实现方式，根据至少一个目标对象类型、每个目标对象类型对应的图像个数和每个第一图像中的主体对象的对象类型，在至少一个第一图像中确定封面模板信息对应的至少一组目标图像：在至少一个第一图像中获取每个目标对象类型对应的一组第一图像，一个目标对象类型对应的一组第一图像中的主体对象的对象类型为该目标对象类型，分别按照主体对象与视频的相关度从高到低的顺序对每组第一图像进行排序，根据每个目标对象类型对应的图像个数和排序后的每组第一图像，确定至少一组目标图像。

例如，假设根据封面模板信息确定2个目标对象类型，分别为风景类型和人物类型，且风景类型对应1个图像，人物类型对应2个图像。则可以在至少一个第一图像中确定两组第一图像，一组为风景类型的图像，另一组为人物类型的图像。分别对该两组第一图像进行排序，排序后的该两组第一图像可以如表2所示：

表2

第一组第一图像	风景图像1、风景图像2、风景图像3、风景图像4
		第二组第一图像	人物图像1、人物图像2、人物图像3、人物图像4

假设需要确定该封面模板信息对应的5组目标图像，则该5组目标图像可以如表3所示：

表3

第一组目标图像	风景图像1、人物图像1、人物图像2
		第二组目标图像	风景图像1、人物图像1、人物图像3
第三组目标图像	风景图像1、人物图像2、人物图像3
		第四组目标图像	风景图像2、人物图像1、人物图像2
第五组目标图像	风景图像2、人物图像1、人物图像3

需要说明的是，表3只是以示例的形式示意多组目标图像，并非对目标图像的限定。

可选的，在确定至少一组目标图像时，还可以参考用户喜欢的对象名称，例如，用户喜欢的对象名称可以包括鲜花、礼堂等。在选择目标对象时，可以优先选择用户喜欢的对象名称。需要说明的是，此处所示的用户可以参见S608中关于用户的描述，此处不再进行赘述。

S610、根据每个封面模板信息和对应的至少一组目标图像，确定视频的封面图像。

根据每个封面模板信息对应的一组目标图像，均可以确定得到一个封面图像。根据每个封面模板信息对应的一组目标图像确定封面图像的过程相同，下面，以根据任意一个封面模板信息对应的任意一组目标图像确定封面图像的过程为例进行说明。

可选的，可以根据封面模板信息所指示的排版信息对一组目标图像进行排版，得到一个封面图像。对一组目标图像进行排版包括确定目标图像在封面图像中的形状、位置、尺寸、视觉特效(例如颜色渐变等)。

需要说明的是，在图6实施例所示的各个处理步骤(S601-S610)并不构成对封面图像确定过程的具体限定。在本申请另一些实施例中，封面图像确定过程可以包括比图6实施例更多或者更少的步骤，例如，封面图像确定过程可以包括图6实施例中的部分步骤，或者，图6实施例中的一些步骤可以由具有相同功能的步骤替换，或者，图6实施例中的一些步骤可以被拆分成多个步骤等。

本申请实施例提供的封面图像确定方法，先在视频中提取多个关键帧，并在多个关键帧中确定至少一个第一图像，并根据至少一个第一图像和每个第一图像中的主体对象的对象类型，确定视频的封面图像。由于第一图像中包括的主体对象与视频的相关度大于或等于预设阈值，且封面图像时根据第一图像确定的，因此，封面图像与视频的相关度较高，使得封面图像可以更加准确的描述视频，提高了确定得到的封面图像的质量。

图11为本申请实施例提供的另一种封面图像确定方法的流程示意图。请参见图11，该方法可以包括：

S1101、在视频中提取多个关键帧。

需要说明的是，S1101的执行过程可以参见S602的执行过程，此处不再进行赘述。

S1102、在多个关键帧中确定至少一个第一图像，第一图像中包括的主体对象与视频的相关度大于或等于预设阈值。

需要说明的是，S1102的执行过程可以参见S603-S606的执行过程，此处不再进行赘述。

S1103、获取每个第一图像中的主体对象的对象类型，对象类型为如下一种：人物类型、物体类型、风景类型或场景类型。

需要说明的是，S1103的执行过程可以参见S607的执行过程，此处不再进行赘述。

S1104、根据至少一个第一图像和每个第一图像中的主体对象的对象类型，确定视频的封面图像。

需要说明的是，S1104的执行过程可以参见S608-S610的执行过程，此处不再进行赘述。

在图11所示的实施例中，先在视频中提取多个关键帧，并在多个关键帧中确定至少一个第一图像，并根据至少一个第一图像和每个第一图像中的主体对象的对象类型，确定视频的封面图像。由于第一图像中包括的主体对象与视频的相关度大于或等于预设阈值，且封面图像时根据第一图像确定的，因此，封面图像与视频的相关度较高，使得封面图像可以更加准确的描述视频，提高了确定得到的封面图像的质量。

在上述任意一个实施例的基础上，在确定得到视频的封面图像之后，可以对封面图像进行不同的处理，例如，可以包括如下可行的实现方式。

一种可行的实现方式：向所有的用户展示相同的封面图像。

在确定得到封面图像的数量为1时，则将该一个封面图像确定为视频的封面图像。在向其它用户展示该视频时，展示的封面图像均为该一个封面图像。

例如，假设应用场景为图5B所示的应用场景，手机确定得到的封面图像的个数为1，则在小花发布好友圈之后，小花的所有好友看到的该视频的封面图像均相同，均为手机确定得到的该一个封面图像。

在确定得到的封面图像的数量大于1时，则向用户展示该多个封面图像，由用户在该多个封面图像中选择一个封面，并将用户选择的一个封面图像确定为视频的封面图像。在向其它用户展示该视频时，展示的封面图像均为该一个封面图像。

例如，假设应用场景为图5B所示的应用场景，手机确定得到的封面图像的个数大于1，则在界面B4之后，手机还向用户展示该多个封面图像，用户在该多个封面图像中选择一个封面图像(图5B中未示出)，则在小花发布好友圈之后，小花的所有好友看到的该视频的封面图像均相同，均为小花选择的一个封面图像。

另一种可行的实现方式：向不同的用户展示不同的封面图像。

在该种可行的实现方式中，确定得到的封面图像的数量大于1，在向不同的用户展示该视频时，根据用户的喜好，向不同的用户展示不同的封面图像。

在该种可行的实现方式中，还可以生成每个封面图像对应的标签信息，标签信息用于描述封面图像中的内容。可以根据封面图像中包括的主体对象的对象名称、对象类型生成标签信息。当然，在生成标签信息时，还可以参考视频的标签，使得确定得到的封面图像的标签信息更加精确，视频的标签可以为用户上传视频时上传的标签，或者通过模型对视频进行学习得到的标签。例如，封面图像对应的标签信息可以包括：封面图像中的人物的名字(演员名和/或角色名)、封面图像中物体的名称(例如，鲜花、礼堂、钻戒、篮球、汽车、飞机等)、封面图像中风景的名称(例如，高山、沙漠、大海、雪景等)、封面图像中场景的名称(例如，婚礼、打斗、打球等)。

可选的，可以根据封面图像的标签信息和用户的用户信息，确定向不同用户展示的封面图像。用户信息中可以包括用户喜欢的对象名称。例如，可以将用户信息与每个封面图像的标签信息进行匹配，将与用户信息的匹配度最高的封面图像确定为向该用户展示的封面图像。

下面，结合图12-图13，通过具体示例，对该种可行的实现方式进行说明。

图12为本申请实施例提供的一种封面图像确定方法的架构图。图13为本申请实施例提供的一种终端设备的界面图。请参见图12-图13，界面1301-界面1304为用户0001的终端设备1中的界面，界面1305为用户0002的终端设备2中的界面，界面1306为用户0003的终端设备3中的界面。

请参见图12和图13中的界面1301-界面1303，用户0001可以通过终端设备1向服务器上传视频1。界面1301-界面1303的描述可以参见图5C中关于界面C1-界面C3的描述，此处不再进行赘述。

服务器可以根据上述方法实施例所示的技术方案生成视频1的多个封面图像，并将该多个封面图像发送给终端设备1。

请参见图12和图13中的界面1304，假设服务器发送给终端设备6个封面图像，则终端设备1显示该6个封面图像，用户可以在该6个封面图像中选择至少一个封面图像。例如，假设用户选择了封面图像1、封面图像4和封面图像5，则用户可以将该3个封面图像(或者该3个封面图像的标识)发送给服务器。

其它终端设备(例如终端设备2和终端设备3)可以向服务器请求获取视频1。请参见图12和图13中的界面1306-1307，在用户0002通过终端设备2向服务器请求获取视频1时，服务器根据用户0002的喜好(用户信息)确定用户0002喜欢风景类视频，则服务器向终端设备2发送视频1和封面图像1，则用户0002看到的视频1的封面图像为封面图像1，由于用户0002喜欢风景类视频，因此，用户0002根据封面图像1对视频1进行观看的概率较大。在用户0003通过终端设备3向服务器请求获取视频1时，服务器根据用户0003的喜好(用户信息)确定用户0003喜欢植物类视频，则服务器向终端设备3发送视频1和封面图像4，则用户0003看到的视频1的封面图像为封面图像4，由于用户0003喜欢植物类视频，因此，用户0003根据封面图像4对视频1进行观看的概率较大。

本申请实施例提供一种封面图像确定装置，该封面图像确定装置用于执行上述方法实施例所示的封面图像确定方法。例如，封面图像确定装置中可以包括处理模块，该处理模块可以执行上述方法实施例所示的封面图像确定方法。

图14为本申请实施例提供的封面图像确定装置的结构示意图。请参见图14，封面图像确定装置10可以包括存储器11和处理器12，其中，存储器11和处理器12通信；示例性的，存储器11和处理器12可以通过通信总线13通信，所述存储器11用于存储计算机程序，所述处理器12执行所述计算机程序实现上述封面图像确定方法。

图15为本申请实施例提供的终端设备的结构示意图。请参见图15，终端设备20包括处理器21，以及与处理器21连接的存储器22、通信接口23、摄像头24、显示屏25和音视频模块26。

处理器21可以包括一个或多个处理单元，例如：处理器21可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

在一些实施例中，处理器21中还可以设置存储器，用于存储指令和数据。例如，处理器21中的存储器为高速缓冲存储器。该存储器可以保存处理器21刚用过或循环使用的指令或数据。如果处理器21需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器21的等待时间，因而提高了系统的效率。

在一些实施例中，处理器21可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。I2S接口可以用于音频通信。在一些实施例中，处理器21可以包含多组I2S总线。处理器21可以通过I2S总线与音视频模块27耦合，实现处理器21与音视频模块27之间的通信。

内部存储器22可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器22可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端设备20使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器21通过运行存储在内部存储器22的指令，和/或存储在设置于处理器中的存储器的指令，执行终端设备20的各种功能应用以及数据处理。

外部存储器接口23可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备20的存储能力。外部存储卡通过外部存储器接口23与处理器21通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

通信模块24可以提供应用在终端设备20上的包括2G/3G/4G/5G等无线通信的解决方案。通信模块24可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noiseamplifier，LNA)等。通信模块24可以由天线接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。通信模块24还可以对经调制解调处理器调制后的信号放大，经天线转为电磁波辐射出去。在一些实施例中，通信模块24的至少部分功能模块可以被设置于处理器21中。在一些实施例中，通信模块24的至少部分功能模块可以与处理器21的至少部分模块被设置在同一个器件中。例如，通信模块24可以接收本申请所示的视频，并将接收到的视频存储至内存存储器22，或者通过外部存储器接口23存储至外部存储器。

摄像头25可以进行图像或者视频的拍摄。例如，摄像头25可以在处理器的控制下拍摄本申请所示的视频，并将视频存储至内存存储器22，或者通过外部存储器接口23存储至外部存储器。

显示屏26用于显示图像，视频等。显示屏26包括显示面板。显示面板可以采用液晶显示器(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，终端设备20可以包括1个或N个显示屏26，N为大于1的正整数。

音视频模块27可以播放内部存储器22或者外部存储器中存储的视频，并通过显示屏26显示播放的视频。例如，音视频模块27用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号音视频模块27还可以用于对音频信号编码和解码。在一些实施例中，音视频模块27可以设置于处理器21中，或将音视频模块27的部分功能模块设置于处理器21中。音视频模块27还可以用于对数字视频压缩或解压缩。终端设备20可以支持一种或多种视频编解码器。这样，终端设备20可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

本申请实施例提供一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序被计算机或处理器执行时用于实现上述封面图像确定方法。

本申请实施例提供一种计算机程序产品，所述计算机程序产品包括指令，当所述指令被执行时，使得计算机执行上述封面图像确定方法。

本申请实施例提供一种芯片上系统或系统芯片，所述芯片上系统或系统芯片可应用于终端设备，所述芯片上系统或系统芯片包括：至少一个通信接口，至少一个处理器，至少一个存储器，所述通信接口、存储器和处理器通过总线互联，所述处理器通过执行所述存储器中存储的指令，使得所述终端设备可执行上述封面图像确定方法。

实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储器(存储介质)包括：只读存储器(read-only memory，ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(magnetic tape)、软盘(floppy disk)、光盘(optical disc)及其任意组合。

本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

在本申请中，术语“包括”及其变形可以指非限制性的包括；术语“或”及其变形可以指“和/或”。本本申请中术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。本申请中，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

Claims

1.一种封面图像确定方法，其特征在于，包括：

在视频中提取多个关键帧；

在所述多个关键帧中确定至少一个第一图像，所述第一图像中包括的主体对象与所述视频的相关度大于或等于预设阈值；

获取每个第一图像中的主体对象的对象类型，所述对象类型为如下一种：人物类型、物体类型、风景类型或场景类型；

根据所述至少一个第一图像和每个第一图像中的主体对象的对象类型，确定所述视频的封面图像；

在所述多个关键帧中确定至少一个第一图像，包括：

根据每个关键帧中包括的主体对象，在所述多个关键帧中确定至少一个第二图像，每个第二图像中包括一个主体对象，所述第二图像为所述关键帧中的部分或者全部图像，所述主体对象为用户的注意力、或者兴趣点聚焦的对象；

确定每个第二图像中的主体对象与所述视频的相关度，所述相关度指示所述主体对象对所述视频的情节发展的贡献程度；

将所述至少一个第二图像中主体对象与所述视频的相关度大于或等于所述预设阈值的图像确定为所述至少一个第一图像。

2.根据权利要求1所述的方法，其特征在于，确定第二图像中的主体对象与所述视频的相关度，包括：

对所述视频进行语义分析，以获取所述视频的语义信息；

对所述第二图像进行对象识别处理，以获取所述第二图像中的主体对象的对象名称；

根据所述语义信息和所述对象名称的匹配度，确定所述第二图像中的主体对象与所述视频的相关度。

3.根据权利要求1所述的方法，其特征在于，确定第二图像中的主体对象与所述视频的相关度，包括：

获取所述第二图像中的主体对象的对象信息，所述对象信息包括如下信息中的至少一种：所述主体对象在所述视频中的出现次数、所述主体对象在包括所述主体对象的视频帧中占的画面比例；

根据所述第二图像中的主体对象的对象信息，确定所述第二图像中的主体对象与所述视频的相关度。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述至少一个第一图像和每个第一图像中的主体对象的对象类型，确定所述视频的封面图像，包括：

获取至少一个封面模板信息，所述封面模板信息用于指示封面图像中包括的图像个数、图像中的主体对象的对象类型和图像的排版方式；

根据每个封面模板信息和每个第一图像中的主体对象的对象类型，在至少一个第一图像中确定每个封面模板信息对应的至少一组目标图像；

根据每个封面模板信息和对应的至少一组目标图像，确定所述视频的封面图像，一个封面图像中包括一组目标图像。

5.根据权利要求4所述的方法，其特征在于，

所述封面模板信息中包括至少一个图像标识、每个图像标识对应的对象类型、每个图像标识对应的排版信息，其中，所述排版信息包括图像标识对应的图像的形状、尺寸和位置；

或者，

所述封面模板信息中包括封面模板图像和所述封面模板图像中每个图像填充区对应的对象类型，所述封面模板图像中包括至少一个图像填充区，所述图像填充区对应的对象类型为所述图像填充区中待填充的图像中的主体对象的对象类型。

6.根据权利要求4或5所述的方法，其特征在于，针对所述至少一个封面模板信息中的任意一个封面模板信息，根据所述封面模板信息和每个第一图像中的主体对象的对象类型，在至少一个第一图像中确定所述封面模板信息对应的至少一组目标图像，包括：

根据所述封面模板信息确定至少一个目标对象类型和每个目标对象类型对应的图像个数；

根据所述至少一个目标对象类型、每个目标对象类型对应的图像个数和每个第一图像中的主体对象的对象类型，在至少一个第一图像中确定所述封面模板信息对应的至少一组目标图像。

7.根据权利要求6所述的方法，其特征在于，所述根据所述至少一个目标对象类型、每个目标对象类型对应的图像个数和每个第一图像中的主体对象的对象类型，在至少一个第一图像中确定所述封面模板信息对应的至少一组目标图像，包括：

在所述至少一个第一图像中获取每个目标对象类型对应的一组第一图像，一个目标对象类型对应的一组第一图像中的主体对象的对象类型为该目标对象类型；

分别按照主体对象与视频的相关度从高到低的顺序对每组第一图像进行排序；

根据每个目标对象类型对应的图像个数和排序后的每组第一图像，确定至少一组目标图像。

8.根据权利要求4-7任一项所述的方法，其特征在于，针对所述至少一个封面模板信息中的任意一个封面模板信息，根据所述封面模板信息和对应的至少一组目标图像，确定所述视频的封面图像，包括：

分别根据所述封面模板信息所指示的排版信息，对每组目标图像进行排版，得到每组目标图像对应的封面图像，一组目标图像对应的封面图像中包括该组目标图像。

9.根据权利要求1-8任一项所述的方法，其特征在于，在视频中提取多个关键帧，包括：

所述视频中提取多个待选帧；

获取每个待选帧的参数信息，所述参数信息包括清晰度、画面亮度和摄影美学；

根据每个待选帧的参数信息，在多个待选帧中确定所述多个关键帧，每个关键帧的清晰度大于或等于预设清晰度，每个关键帧的画面亮度位于第一亮度和第二亮度之间，每个关键帧的构图满足预设美学规则。

10.根据权利要求1-9任一项所述的方法，其特征在于，所述方法还包括：

获取所述封面图像中包括对象的对象信息，所述对象信息包括所述对象的对象类型和/或对象名称；

根据所述对象信息，确定所述封面图像的标签信息。

11.根据权利要求10所述的方法，其特征在于，确定得到的所述视频的封面图像的个数大于1，所述方法还包括：

接收第一用户对应的视频获取请求，所述视频获取请求用于请求获取所述视频；

获取所述第一用户的用户信息；

根据所述用户信息，在确定得到的多个封面图像中确定目标封面图像；

向所述第一用户对应的终端设备发送所述视频和所述目标封面图像。

12.一种封面图像确定装置，其特征在于，所述封面图像确定装置用于执行权利要求1-11任一项所述的方法。

13.一种封面图像确定装置，其特征在于，包括存储器和处理器，所述处理器执行所述存储器中的程序指令，用于所述装置实现权利要求1-11任一项所述的封面图像确定方法。

14.一种存储介质，其特征在于，所述存储介质用于存储计算机程序，所述计算机程序被计算机或处理器执行时用于实现权利要求1-11任一项所述的封面图像确定方法。

15.一种芯片上系统，所述芯片上系统应用于终端设备，所述芯片上系统包括：至少一个通信接口，至少一个处理器，至少一个存储器，所述通信接口、所述存储器和所述处理器通过总线互联，所述处理器通过执行所述存储器中存储的指令，使得所述终端设备可执行权利要求1-11任一项所述的封面图像确定方法。

16.一种系统芯片，所述系统芯片应用于终端设备，所述系统芯片包括：至少一个通信接口，至少一个处理器，至少一个存储器，所述通信接口、所述存储器和所述处理器通过总线互联，所述处理器通过执行所述存储器中存储的指令，使得所述终端设备可执行权利要求1-11任一项所述的封面图像确定方法。