CN116958854A

CN116958854A - 视频封面的确定方法、装置、设备、介质和程序产品

Info

Publication number: CN116958854A
Application number: CN202310226118.5A
Authority: CN
Inventors: 汪俊明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-10-27

Abstract

本申请公开了一种视频封面的确定方法、装置、设备、介质和程序产品，涉及计算机领域。该方法包括：显示封面设置界面；对视频文件进行主体识别，显示与视频文件中视频帧对应的主体识别结果；响应于接收到在至少一个主体标识中对目标主体的选择操作，显示视频文件中包含目标主体的至少一帧视频帧作为候选封面；接收在至少一帧视频帧中对目标视频帧的选择操作，并基于目标视频帧确定视频文件的封面内容。能够显示包含目标主体的视频帧作为候选的视频封面，根据主体标识快速定位至对应的视频帧，提高视频封面确定的效率、视频封面的展示效果。

Description

视频封面的确定方法、装置、设备、介质和程序产品

技术领域

本申请实施例涉及计算机领域，特别涉及一种视频封面的确定方法、装置、设备、介质和程序产品。

背景技术

在网站中浏览或上传视频时，每个视频都具有视频封面，用于吸引用户，视频封面的选择具有重要作用。

相关技术中，对于视频封面的选择，通常是对视频文件中的固定时间点进行截图，获得该时间点对应的视频图像，将该视频图像作为视频封面，如：选取视频文件的开头或者结尾作为视频封面。

然而，上述方式需要用户手动拖动视频文件的进度条，从视频文件中选择包含目标对象的视频图像，作为视频封面，导致封面设置的效率较低，且视频图像包含目标对象的准确率低。

发明内容

本申请实施例提供了一种视频封面的确定方法、装置、设备、介质和程序产品，能够显示包含目标主体的视频帧作为候选的视频封面，根据主体标识快速定位至对应的视频帧，基于视频帧确定视频封面，提高视频封面展示效果。所述技术方案如下：

一方面，提供了一种视频封面的确定方法，所述方法包括：

显示封面设置界面，所述封面设置界面用于对视频文件进行封面设置；

对所述视频文件进行主体识别，显示与所述视频文件中视频帧对应的主体识别结果，所述主体识别结果中包括从所述视频帧中识别得到的至少一个主体标识；

响应于接收到在所述至少一个主体标识中对目标主体的选择操作，显示所述视频文件中包含所述目标主体的至少一帧视频帧作为候选封面；

接收在所述至少一帧视频帧中对目标视频帧的选择操作，并基于所述目标视频帧确定所述视频文件的封面内容。

另一方面，提供了一种视频封面的确定装置，所述装置包括：

显示模块，显示封面设置界面，所述封面设置界面用于对视频文件进行封面设置；

所述显示模块，对所述视频文件进行主体识别，显示与所述视频文件中视频帧对应的主体识别结果，所述主体识别结果中包括从所述视频帧中识别得到的至少一个主体标识；

所述显示模块，响应于接收到在所述至少一个主体标识中对目标主体的选择操作，显示所述视频文件中包含所述目标主体的至少一帧视频帧作为候选封面；

封面确定模块，接收在所述至少一帧视频帧中对目标视频帧的选择操作，并基于所述目标视频帧确定所述视频文件的封面内容。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的视频封面的确定方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的视频封面的确定方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的视频封面的确定方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

在视频封面设置界面中对视频文件的封面进行设置，选择指定时间戳对应的图像视频帧，显示该图像视频帧中所包含的主体标识，在主体标识中选择目标主体，可以快速定位至包含目标主体的视频帧，为视频封面的选择提供参考，包含目标主体的视频帧能够更好的对视频文件进行表达，基于包含目标主体的视频帧，确定视频文件的封面内容，能够提高封面选择的效率，并提高封面表达的效果，提高视频封面的吸引力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境的示意图；

图2是本申请一个示例性实施例提供的视频封面的确定方法的流程图；

图3是本申请一个示例性实施例提供的上传视频文件时显示界面的示意图；

图4是本申请一个示例性实施例提供的封面设置界面的示意图；

图5是本申请一个示例性实施例提供的基于指定时间戳在进度条显示区域显示视频图像帧的示意图；

图6是本申请一个示例性实施例提供的对视频图像帧进行主体识别的示意图；

图7是本申请一个示例性实施例提供的主体图像帧的获取方法的流程图；

图8是本申请一个示例性实施例提供的从视频文件中确定至少一个主体图像帧的示意图；

图9是本申请一个示例性实施例提供的对主体关键帧中主体进行主体识别并定位至包含目标主体的主体关键帧的方法流程图；

图10是本申请一个示例性实施例提供的对主体进行面部检测的示意图；

图11是本申请一个示例性实施例提供的硬件架构图；

图12是本申请一个示例性实施例提供的视频封面的确定装置的结构框图；

图13是本申请另一个示例性实施例提供的视频封面的确定装置的结构框图；

图14是本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、用户在终端设备上传的信息、用户在终端设备上选择的信息等)、数据(包括但不限于用于主体识别的数据、分析的数据、存储的数据、展示的数据等，如：视频文件数据、视频帧对应的图像数据)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

应当理解，尽管在本申请可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一参数也可以被称为第二参数，类似地，第二参数也可以被称为第一参数。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，针对本申请实施例中涉及的名词进行简单介绍：

RGB(Red，Green，Blue)：RGB是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是运用最广的颜色系统之一。

图像灰度化：将彩色图像转化为灰度图像的操作被称为图像灰度化。将彩色图像转换为灰度图像的意义主要有两个，一是相较于彩色图像灰度图像占内存更小，运算速度更快；二是转化为灰度图像后可以在视觉上增加对比，突出目标区域。本申请中，图像灰度化主要用于将图像中的主体面部特征增强，进行识别。

伽玛校正(Gamma Correction)：所谓伽玛校正就是对图像的伽玛曲线进行编辑，以对图像进行非线性色调编辑的方法，检出图像信号中的深色部分和浅色部分，并使两者比例增大，从而提高图像对比度效果。计算机绘图领域惯以此屏幕输出电压与对应亮度的转换关系曲线，称为伽玛曲线(Gamma Curve)。

梯度(Gradient)：梯度的本意是一个向量(矢量)，表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向(此梯度的方向)变化最快，变化率最大(为该梯度的模)。

图像梯度：是指图像某像素在x和y两个方向上的变化率(与相邻像素比较)，是一个二维向量，由2个分量组成X轴的变化、Y轴的变化。其中：X轴的变化是指当前像素右侧(X加1)的像素值减去当前像素左侧(X减1)的像素值；Y轴的变化是当前像素下方(Y加1)的像素值减去当前像素上方(Y减1)的像素值。计算出来这2个分量，形成一个二维向量，就得到了该像素的图像梯度。

在计算机视觉领域中，若一幅模糊图像中的物体的轮廓不明显，轮廓边缘灰度变化不强烈，会导致层次感不强，而在清晰图片中的物体轮廓边缘灰度变化明显，层次感强。图像就是函数，故可以使用导数(图像梯度)，衡量图像灰度的变化率。也即，引入的图像梯度可以把图像看成二维离散函数，图像梯度其实就是这个二维离散函数的求导。

方向梯度直方图(Histogram of Oriented Gradient，HOG)：HOG特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征。

在视频网站或平台中观看视频时，每个视频都具有各自的视频封面，用于在视频未播放时，所看到的预览画面。视频封面对应图片的质量高低是吸引用户点击视频的重要因素。

在相关技术中，视频封面的选取方案，通常是选取视频中的固定时间点，对该固定时间点对应的视频画面进行截图，将截取的图片作为视频封面的候选图片，以供用户从中选择。如，将视频文件的开头和结尾作为固定时间点，选择对应的视频画面作为视频封面。

然而，通过上述方式所获得的图片，在多数情况下较为模糊、无法聚焦，导致用户不能清晰准确的看到图片中所包含的内容，或者，图片所展示的画面过于简单、不包含有意义的物体或对象等，造成视频封面的展示效果较差，无法吸引其他用户点击视频，用户在进行视频封面的选择过程中耗费较长时间，效率较低。

在本申请实施例中，对视频文件中存在的主体进行识别，基于识别结果确定视频文件的至少一个视频关键帧，将视频关键帧作为预览图展示在视频封面设置界面上为用户提供参考，通过主体识别得到的至少一个视频关键帧中包含出现频率符合频率要求的主体，且视频关键帧清晰度较高。当用户对视频进度条进行拖动，选中指定的时间戳时，显示与该时间戳对应的视频图像帧，并对该视频图像帧中出现的主体进行识别，生成识别结果，识别结果包括这些主体所对应的主体标识。显示主体标识，在用户选择视频封面时提供索引，通过在主体标识中选择目标主体，可以快速定位至包含目标主体的视频关键帧，基于包含目标主体的视频关键帧确定视频封面。

通过本申请提出的方法，能够得到准确包含目标主体的视频封面，为用户选择视频封面提供了参考选项和对应的提示信息，提高了用户选择视频封面的效率，以及视频封面的展示效果，吸引更多用户点击视频。

其次，对本申请实施例中涉及的实施环境进行说明，示意性的，请参考图1，该实施环境中涉及终端110、服务器120，终端110和服务器120之间通过通信网络130连接。

在一些实施例中，终端110用于向服务器120发送视频图像帧，视频图像帧是视频文件中指定时间戳所对应的视频帧。终端110中安装有具有设置视频封面功能的应用程序，示意性的，终端110中安装有公益类应用程序，能够在公益类应用程序中宣传公益活动，如：慈善公益活动、植树造林活动等。在宣传公益活动的界面上，能够上传与公益活动对应的主题视频，上传主题视频时可以对视频文件的封面进行选择。可选地，终端110中还可以安装其他应用程序，如：安装有搜索引擎程序、生活辅助应用程序、即时通讯应用程序、视频类程序、游戏类程序等，在这些应用程序上也可以进行视频的发布，并对视频封面进行选择，本申请实施例对此不加以限定。

服务器120中具有主体识别功能，能够对视频图像帧中的主体进行识别，并生成对应的主体识别结果。示意性的，视频图像帧中包含至少一个主体，主体的类型包括但不限于：人物主体、动物主体、虚拟对象主体等。服务器120对视频图像帧中的主体进行识别后，所生成的主体识别结果包括主体标识，示意性的，主体标识是指主体的头像标识，用于表示主体的面部情况，基于主体标识可以确定对应的主体。

在一些实施例中，主体标识还可以指(1)主体在视频图像帧中的位置坐标；(2)主体的编号，如：基于主体的面部特征，对面部特征进行编码后所生成的唯一编号，或者，对主体衣物上的号码牌进行识别后生成的编号；(3)主体的颜色，如：基于主体自身包含的颜色种类所生成的颜色标识等，本实施例对此不加以限定。

在一些实施例中，终端110还用于接收服务器120发送的主体识别结果，在主体识别结果中选择目标主体标识。终端110向服务器120发送目标主体标识。

在一些实施例中，服务器120也具有获取视频帧的功能，在服务器120接收到视频文件后，可以获取视频文件中的视频帧。

服务器120具有主体识别功能，也能够对视频文件的视频帧中的主体进行识别，并生成对应的主体图像帧。示意性的，服务器120接收到终端110发送的目标主体标识后，对视频文件的视频帧进行主体识别，找到包含目标主体标识的视频帧作为主体图像帧，将主体图像帧发送至终端110。

在一些实施例中，终端110还用于接收服务器120发送的主体图像帧，并在终端110显示主体图像帧。

上述终端可以是手机、平板电脑、台式电脑、便携式笔记本电脑、智能电视、车载终端、智能家居设备等多种形式的终端设备，本申请实施例对此不加以限定。

值得注意的是，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

在一些实施例中，上述服务器还可以实现为区块链系统中的节点。

结合上述名词简介和应用场景，对本申请提供的视频封面的确定方法进行说明，该方法可以由服务器或者终端执行，也可以由服务器和终端共同执行，本申请实施例中，以该方法由终端执行为例进行说明，如图2所示，图2是本申请一个示例性实施例提供的视频封面的确定方法的流程图。该方法包括如下步骤。

步骤210，显示封面设置界面。

其中，封面设置界面用于对视频文件进行封面设置。

示例性的，视频文件的内容是公益活动的宣传片，将视频文件上传至公共平台用于展示，在上传过程中对视频文件的封面进行设置。

示意性的，如图3所示，图3是一个上传视频文件时显示界面的示意图。

在显示界面300上包含提示信息和目标控件，其中，提示信息的表现形式为文本内容，用于指示在上传视频文件过程中所需要添加的项目信息。

可选地，以视频文件的内容为公益活动宣传片为例进行说明，则项目信息包括但不限于：(1)项目名称：该公益活动的主题名称；(2)项目领域：该公益活动涉及的领域；(3)项目编号：该公益活动的备案项目编号；(4)项目详情：该公益项目主要负责的流程等。

目标控件中包含封面设置控件301，通过对封面设置控件301进行触发，可以进入封面设置界面。文本框302用于添加视频文件的文字描述，如：视频文件所传递的主题思想、视频文件拍摄内容的选取场地、视频内容中涉及到的人物等。视频封面预览区域303用于显示视频文件的封面内容，通过封面设置控件301对视频文件的封面设置完毕后，可以在视频封面预览区域303显示视频封面。示意性的，上述目标控件仅为示意性的举例，本申请实施例对目标控件的类型不加以限定，且显示界面中可以包括更多或者更少控件用于对公益项目进行编辑。

示意性的，如图4所示，图4是一个封面设置界面的示意图。

通过对如图3所示的封面设置控件301进行触发后，在终端屏幕上显示封面设置界面400。封面设置界面400包含封面预览区域401，封面预览区域401用于显示被选中的时间戳所对应的视频图像帧，将该视频图像帧作为封面预览，在设置封面的过程中提供参考。

其中，封面设置界面400还包含进度条显示区域402，进度条显示区域402用于显示视频文件在不同时刻的视频帧，可以通过接收针对进度条显示区域402的拖动操作，选择与不同时间戳对应的视频帧作为视频图像帧。

在进度条显示区域402中被选中的时间戳所对应的视频帧和封面预览区域401所显示的视频图像帧相同。

步骤220，对视频文件进行主体识别，显示与视频文件中视频帧对应的主体识别结果。

可选地，对视频文件进行主体识别时包括但不限于如下几种情况：(1)对视频文件中的至少一个视频帧进行主体识别，显示与视频帧对应的主体识别结果；(2)对视频文件进行指定时间戳的选择，与该指定时间戳所对应的视频帧为视频图像帧，对视频图像帧进行主体识别，显示与视频图像帧所对应的主体识别结果。

示意性的，如图4所示，图4中还包含主体标识显示区域403和完成控件404。

对视频文件进行指定时间戳的选择，在进度条显示区域402显示与该时间戳对应的视频图像帧。主体标识显示区域403用于显示视频图像帧中所包含的主体所对应的主体标识，如：视频图像帧中包含6个主体，主体均为人，则对应显示6个主体的人物头像作为主体标识。

主体标识显示区域403所显示的内容用于在视频封面选择的过程中进行提示，在主体标识中选中任意数量的目标主体标识后，进度条显示区域402会自动显示包含目标主体标识的视频帧。

当视频封面选择完毕时，可以通过接收针对完成控件404的触发操作，结束视频封面的设置，并返回到上一级界面，即上传视频文件时的显示界面300。

值得注意的是，视频文件的时长、内容种类可以是任意的，上传视频文件时显示界面所包含的目标控件和提示信息可以是任意的，封面设置界面中所包含的内容包括但不限于上述不同显示区域和目标控件，本实施例对此不加以限定。

可选地，视频文件的时长为6分钟，内容为公益活动的宣传片。指定时间戳对应视频文件的1分15秒处，在进度条显示区域中显示该时间戳对应的视频图像帧。

进度条显示区域除了视频图像帧，还显示有预设数量的其他视频帧，在未接收到对指定时间戳的选择操作之前，进度条显示区域按照视频文件的时间轴顺序显示多个视频帧。示意性的，进度条显示区域一次可以显示三个视频帧，对进度条显示区域进行拖动，选中指定时间戳后，在进度条显示区域按照时间顺序从左往右依次显示：与该时间戳对应的视频图像帧、预设数量的视频帧中的其中两个视频帧。示意性的，图5是本申请一个示例性实施例提供的基于指定时间戳在进度条显示区域显示视频图像帧的示意图。

在进度条显示区域500中同时显示三个视频帧：视频帧1、视频帧2、视频帧3，按照时间顺序从左往右排列。

选择指定时间戳后，在进度条显示区域500最左侧显示视频图像帧，并显示当前时间戳对应的时刻为00:01:15，按照时间顺序，在视频图像帧后依次显示视频帧2、视频帧3。

在一些实施例中，上述预设数量的视频帧(包含视频帧1、视频帧2和视频帧3)是从视频文件的关键帧中选择的指定关键帧，也可以是与指定时间点所对应的视频帧，或者，也可以是在整个视频文件的所有视频帧中随机挑选的视频帧，本实施例对此不加以限定。

其中，主体识别结果中包括从视频图像帧中识别得到的至少一个主体标识。

视频图像帧中包含的主体类型包括但不限于：(1)人物主体：主体为人类；(2)动物主体：主体为动物；(3)虚拟主体：主体为虚拟对象，如：虚拟动画人物。

主体标识用于对不同的主体进行标记，如，用于表示主体头像的标识、用于表示主体面部特征的标识等，在一些实施例中，视频图像帧中的主体预设有对应的编号，主体的编号也可作为标识。

在一些实施例中，主体标识还可以是用于表示主体的面部特征标识，如：主体为人物主体时，面部特征标识用于表示主体的性别为女、主体的眼睛为双眼皮、主体的双眼眼距、主体的耳朵轮廓为招风耳等。

可选地，视频图像帧中包含的主体为人物主体，数量为6，则对视频图像帧进行主体识别时，得到的主体识别结果为这6个人物主体的头像标识。

示意性的，如图6所示，图6是对视频图像帧进行主体识别的示意图。

视频图像帧600中包括6个人物主体，对视频图像帧600进行主体识别，得到主体识别结果601，主体识别结果601中包含6个人物主体的头像标识。

值得注意的是，视频图像帧中包含的主体类型和数量可以是任意的，主体识别结果的表现形式可以是任意的，包括但不限于上述头像标识、面部特征标识、编号标识等，本实施例对此不加以限定。

步骤230，响应于接收到在至少一个主体标识中对目标主体的选择操作，显示视频文件中包含目标主体的至少一帧视频帧作为候选封面。

每个主体标识用于代表各自的主体，在主体标识中选择目标主体，则可以在视频文件的视频帧中快速定位到包含该目标主体的视频帧，并在进度条显示区域中显示包含目标主体的视频帧。

可选地，主体标识有6个，选择其中1个作为目标主体标识，与目标主体标识对应的主体为目标主体。包含目标主体的视频帧共有3帧，则在进度条显示区域按照时间顺序从左往右依次显示，由于目标主体是在图像视频帧的主体标识中选择的，故进度条显示区域中依然显示该图像视频帧。

示例性的，包含目标主体的视频帧按照在视频文件中的出现顺序，分别为：第一视频帧、第二视频帧和第三视频帧，若进度条显示区域可以同时显示四个及以上的视频帧，则按照顺序在进度条显示区域从左往右依次显示：图像视频帧、第一视频帧、第二视频帧、第三视频帧；若进度条显示区域无法同时显示四个及以上的视频帧，如：仅能同时显示三个视频帧，则按照顺序在进度条显示区域从左往右依次显示：图像视频帧、第一视频帧、第二视频帧，拖动进度条可以查看第三视频帧，以此类推。

在一些实施例中，进度条显示区域显示视频帧的顺序可以是任意的，包括但不限于按照出现在视频文件中的时间，在进度条显示区域中可以显图像视频帧，也可以只显示其他包含目标主体的视频帧，进度条显示区域能够同时显示的视频帧数量可以是任意的，本实施例对此不加以限定。

步骤240，接收在至少一帧视频帧中对目标视频帧的选择操作，并基于目标视频帧确定视频文件的封面内容。

在进度条显示区域中显示了至少一个包含目标主体的视频帧，基于视频文件的封面选择需求在视频帧中选择一个目标视频帧，其中，基于目标视频帧确定视频文件的封面内容，包括但不限于如下方式：

(1)直接将该目标视频帧作为视频封面，此时视频封面为图像形式；

(2)基于该目标视频帧在视频文件的进度条中的位置，将包含目标视频帧的目标视频片段确定为视频文件的封面内容，其中，目标视频片段是视频文件的截取片段。

在一些实施例中，对于视频文件的封面内容进行选取时，也可以不参考目标视频帧，直接基于需求在视频文件中选择一段视频片段或某个视频帧作为视频文件的封面，本实施例对此不加以限定。

综上所述，本申请提供的方法，能够在视频封面设置界面中对视频文件的封面进行设置，选择指定时间戳对应的图像视频帧，显示该图像视频帧中所包含的主体标识，在主体标识中选择目标主体，可以快速定位至包含目标主体的视频帧，为视频封面的选择提供参考，包含目标主体的视频帧能够更好的对视频文件进行表达，基于包含目标主体的视频帧，确定视频文件的封面内容，能够提高封面选择的效率，并提高封面表达的效果，提高视频封面的吸引力。

本实施例提供的方法，通过对视频文件的视频帧进行显示，在包含目标主体的视频帧中选择目标视频帧，目标视频帧能够对视频文件中包含的主要主体和内容进行提示，在用户通过终端进行封面选择时，提供参考依据，提高了人机交互效率和视频封面的展示效果。

在一些实施例中，选中目标主体，显示视频文件中包含目标主体的至少一帧视频帧作为候选封面时，需要先获取视频文件中的多个主体图像帧，其中，主体图像帧中包括视频文件中出现频率符合频率要求的主体，在多个主体图像帧中对目标主体进行主体识别，确定包含目标主体的至少一帧主体图像帧作为候选封面。

也即，主体图像帧是在进度条显示区域展示的内容，用于提供视频文件中具有代表性的视频帧。

如图7所示，图7是本申请一个示例性实施例提供的主体图像帧的获取方法的流程图，包括如下步骤。

步骤710，对视频文件进行片段划分，得到多个视频片段。

可选地，视频文件的总时长为10分钟，将视频文件划分为10个视频片段，每个视频片段的时长均为1分钟，按照起止时间的顺序为视频片段进行编号，如：开始时间为00:00:00、截止时间为00:01:00的视频片段为第一视频片段，以此类推。

可选地，对视频文件进行内容识别，将视频文件划分为不同主题的视频片段，如：视频文件为公益活动的宣传片，视频文件的总时长为10分钟。

其中，第一视频片段的主题为：对公益活动中参与拍摄的成员介绍，包含5位留守儿童和1位支教老师，开始时间为00:00:00、截止时间为00:02:00；第二视频片段的主题为：对公益活动中涉及的活动地点进行介绍，活动地点是某山区自治县，开始时间为00:02:01、截止时间为00:03:00；第三视频片段的主题为：对公益活动的实施内容进行介绍，为该山区自治县建造了一所小学，开始时间为00:03:01、截止时间为00:08:00；第四视频片段的主题为：对公益活动的举办效果进行介绍，建造小学后，为该山区的孩子提供了读书条件，开始时间为00:08:01、截止时间为00:10:00。

可选地，在视频文件中存在特定画面，按照特定画面所在时间点进行划分。如：视频文件中存在一些视频帧，这些视频帧对应的画面(1)不包含任何主体，如画面中仅存在建筑设施、交通工具等；(2)为纯色背景，如全黑背景、全白背景；(3)为风景画面，如天空画面、草原画面、湖水画面等。

在一些实施例中，对视频文件进行划分的方式可以是任意的，包括但不限于上述用于举例的按照时间、视频文件的内容主题、特定画面进行划分的方式，本实施例对此不加以限定。

步骤720，针对第i个视频片段，对第i个视频片段的多个视频帧进行主体识别，得到多个视频帧分别对应的主体识别结果。

其中，主体识别结果中包括在多个视频帧中的出现频率达到频率阈值的至少一个片段主体，i为正整数。

可选地，共有10个视频片段，每个视频片段都包含多个视频帧，i＝1时的视频片段为第一视频片段。以第一视频片段为例进行说明，其他视频片段同第一视频片段。

对第一视频片段中的多个视频帧进行主体识别，得到主体识别结果，主体识别结果中还包含第一视频片段中出现过的所有主体对应的主体标识，如：共存在4个主体，每个主体都是人，则对应4个人物头像作为主体标识。

对每个主体在视频帧中的出现频率进行统计，将出现频率达到预设的频率阈值的主体确定为片段主体。

可选地，第一视频片段共有10个视频帧，4个主体：A、B、C、D，预设的频率阈值为40％。

A在7个视频帧中出现，出现频率为70％，B在1个视频帧中出现，出现频率为10％，C在4个视频帧中出现，出现频率为40％，D在5个视频帧中出现，出现频率为50％；则达到频率阈值的片段主体为A、C、D。

步骤730，基于至少一个片段主体在多个视频帧中的显示面积，从多个视频帧中确定与第i个视频片段对应的至少一帧主体图像帧。

获得第i个视频片段对应的主体图像帧，主要包括如下步骤：

(1)当存在多个片段主体时，在第i个视频片段中确定连续关键帧片段，连续关键帧片段是指同时存在多个片段主体的连续关键帧，其中，多个片段主体中包括在视频片段中出现频率最高的关键主体。

可选地，以第一视频片段为例进行说明，第一视频片段中包含的片段主体为A、C、D，出现频率分别为70％、40％和50％，则关键主体为A。

在第一视频片段中，片段主体A、C、D同时出现的时间区间为00:00:10至00:00:44，则该时间区间内的视频片段为连续关键帧片段。

(2)基于关键主体在连续关键帧片段中的显示面积，从连续关键帧片段中确定与第i个视频片段对应的至少一帧主体图像帧。

当关键主体在连续关键帧片段中的显示面积最大时，确定关键主体帧。可选地，连续关键帧片段包含多个帧，关键主体为人物主体A，当A在连续关键帧片段显示面积最大时，确定该显示面积对应的帧为关键主体帧。

显示面积最大，包括但不限于如下几种情况：(1)关键主体的面部显示面积最大；(2)关键主体的整体显示面积最大。

在一些实施例中，还可以基于关键主体在连续关键帧片段中的清晰程度等条件，确定关键主体帧，如：关键主体不存在模糊情况且清晰度最高的帧为关键主体帧。

在连续关键帧片段中确定与关键主体帧对应的字幕的起止时间戳，并将起止时间戳之间的片段为关键主体片段。当片段主体的显示面积总和最大时，从关键主体片段中确定与第i个视频片段对应的至少一帧主体图像帧。

可选地，以第一视频片段为例进行说明，第一视频片段的连续关键帧片段对应的时间区间为00:00:10至00:00:44，第一视频片段的关键主体帧对应视频文件时间点的00:00:35，与关键主体帧对应的字幕起止时间戳为00:00:30至00:00:36，则00:00:30至00:00:36的片段为关键主体片段。

可选地，第一视频片段的关键主体片段中包含片段主体A、C、D，关键主体片段中包含至少一个视频帧，当片段主体的显示面积总和达到最大时，确定该视频帧为主体图像帧。

示意性的，如图8所示，图8是一个从视频文件中确定至少一个主体图像帧的示意图。

将视频文件800划分为多个视频片段810，其中，每个视频片段810都包含至少一个视频帧，对每个视频片段810的视频帧进行主体识别，得到主体识别结果，即每个视频片段中出现的主体，统计每个视频片段中主体的出现频率，将符合预设频率要求的至少一个主体确定为片段主体820。

基于片段主体820的出现频率，将出现频率最高的片段主体820确定为该视频片段的关键主体830。当所有片段主体820同时出现时，将同时包含片段主体820的片段确定为该视频片段的连续关键帧片段840。

在连续关键帧片段840中，当关键主体830的显示面积最大时，确定对应的视频帧为该视频片段810的关键主体帧850。

与关键主体帧850对应的字幕起止时间戳对应的片段为关键主体片段860，在关键主体片段860中包含至少一个视频帧，当所有片段主体820的显示面积最大时，确定该视频帧为该视频片段的主体图像帧870。

终端屏幕上显示封面设置界面880，在选择指定时间戳之前，显示封面设置界面880的进度条显示区域中显示主体图像帧870。

在一些实施例中，选中指定时间戳对应的视频图像帧后，会在封面设置界面上显示该视频图像帧中所包含主体的主体标识，在主体标识中选中目标主体后，对主体图像帧进行主体识别，当主体图像帧中包含目标主体时，确定包含目标主体的主体图像帧作为候选视频封面，在进度条显示区域显示；当主体图像帧中不包含目标主体时，则对视频文件的视频帧进行主体识别，确定包含目标主体的视频帧作为候选视频封面，在进度条显示区域显示。

值得注意的是，划分视频片段的数量和时长可以是任意的，片段主体的确定方式可以是任意的，预设的出现频率阈值可以是任意的，从视频文件中确定至少一个主体图像帧的方式可以是任意的，每个视频片段中的主体图像帧的数量可以是任意的，本实施例对此不加以限定。

综上所述，本申请提供的方法，能够对视频文件进行划分，得到多个视频片段，通过对视频片段中的视频帧进行主体识别，获得每个视频片段对应的主体图像帧，主体图像帧在进度条显示区域显示，用于在设置视频封面时进行关键帧的提示，提高了视频封面选择过程中的效率，可基于主体图像帧确定视频封面，提高了视频封面的展示效果和吸引力，保证了视频封面的清晰度。

本实施例提供的方法，通过获得视频文件的主体图像帧，在进度条显示区域显示主体图像帧，为视频封面的选择提供参考，主体图像帧中包含出现频率符合频率要求的主体，主体图像帧是视频文件中不同时间段内的重要视频帧，选中目标主体后，对主体图像帧进行主体识别，能够快速定位到包含目标主体的主体图像帧，提高了人机交互的效率和视频封面的展示效果。

本实施例提供的方法，通过对视频文件进行划分，得到多个视频片段，对于每个视频片段中包含的视频帧进行主体识别，确定每个视频片段中所包含的片段主体，并基于片段主体在视频帧中的显示面积确定达到主体图像帧，能够获得视频文件在不同时间段内的重要视频帧，提高了封面设置界面显示内容的多样性。

本实施例提供的方法，通过将同时出现所有片段主体的连续关键帧确定为连续关键帧片段，将出现频率最高的片段主体确定为关键主体，基于关键主体在连续关键帧片段中的显示面积，确定至少一个主体图像帧，能够获得片段主体出现频率较高且清晰的视频帧。

本实施例提供的方法，通过对连续关键帧片段进一步进行筛选，确定关键主体在连续关键帧片段中的显示面积最大时对应的视频帧为关键主体帧；基于关键主体帧，在连续关键帧片段中确定与关键主体帧对应的字幕的起止时间戳，起止时间戳之间的片段为关键主体片段；当片段主体的显示面积总和最大时，从关键主体片段中确定每个视频片段对应的至少一帧主体图像帧，能够提高确定主体图像帧的效率。

在本申请中，对视频帧进行主体识别的情况包括但不限于如下几种：

(1)在进行视频封面设置之前，对视频文件中的视频帧进行主体识别，确定出现频率符合频率要求的关键主体，并基于关键主体在视频帧中的显示面积，确定主体关键帧；(2)对视频文件中指定时间戳进行选择后，获得与该时间戳对应的视频图像帧，对该视频图像帧进行主体识别，得到主体识别结果，即至少一个主体标识；(3)在主体标识中确定目标主体后，对主体关键帧继续进行主体识别，确定包含目标主体的主体关键帧，作为候选视频封面显示在进度条显示区域。

其中，上述几种情况所使用的主体识别方法相同，如图9所示，图9是本申请一个对主体关键帧中主体进行主体识别并定位至包含目标主体的主体关键帧的方法流程图，包含如下步骤。

步骤910，基于目标主体对至少一个关键主体帧进行主体识别，得到第一主体识别结果。

可选地，关键主体帧中的主体类型包括但不限于如下几种：(1)人物主体：主体为人类；(2)动物主体：主体为动物；(3)虚拟主体：主体为虚拟对象，如：虚拟动画人物。

示例性地，以关键主体帧中的主体都为人物主体为例进行说明。视频文件包含10个关键主体帧，每个关键主体帧中都包含至少一个主体。

第一主体识别结果中包含在关键主体帧中出现的至少一个主体、主体的面部特征信息、主体面部在关键主体帧中的位置坐标。

可选地，目标主体为主体A，第一个关键主体帧中存在的主体包括：主体A、主体B、主体C和主体D，每个主体的面部特征信息包括但不限于：(1)左眼、右眼在面部的位置；(2)鼻子在面部的位置；(3)嘴唇在面部的位置等。

可选地，以第一个关键主体帧为例进行说明，其中，第一个关键主体帧中包含目标主体。对关键主体帧进行主体识别的过程包括如下步骤：

1、主体面部检测：目的是在第一个关键主体帧中找到主体的面部所在位置，当发现有任何主体的面部出现在第一个关键主体帧中，都会标记出该主体的面部的坐标信息，或者，将主体面部从第一个关键主体帧对应的图像中切割出来。

示意性的，如图10所示，图10是一个对主体进行面部检测后的示意图。

关键主体帧中存在至少一个主体，对关键主体帧进行裁剪，得到仅包含主体的裁剪图像1000，对裁剪图像1000进行主体面部检测，得到用于表示主体面部位置的面部提示框1010，面部提示框1010中包含了主体面部图像1020。

可选地，使用HOG图像特征提取算法进行主体面部检测，过程如下。

1.1图像预处理

对第一关键主体帧进行图像预处理，得到用于进行主体识别的、处理后的图像。

可选地，将第一个关键主体帧的图像裁剪缩放至64×128的尺寸，得到裁剪后的第一关键主体帧，即裁剪图像。

在一些实施例中，还可以对裁剪后的第一关键主体帧进行：(1)图像灰度化处理，将彩色图像转变为灰度图；(2)Gamma矫正处理，减少光度对图像识别过程的影响等操作，将第一关键主体帧中的主体面部特征进行增强，使得主体面部更清晰、显眼，本实施例对此不加以限定。

1.2计算图像梯度

对裁剪后的第一关键主体帧进行梯度计算，得到裁剪图像中每个像素点的梯度，对于每个像素点来说，梯度数据都包括两个值：梯度强度和梯度方向。

可选地，直接使用一维的sobel算子，分别计算像素点的水平以及竖直方向的梯度。

Sobel算子(Sobel operator)主要用作边缘检测，在技术上，它是一离散性差分算子，用来运算图像亮度函数的灰度之近似值。在图像的任何一点使用此算子，将会产生对应的灰度矢量或是其法矢量。其中，边缘是指，灰度或结构等信息的突变处，边缘是一个区域的结束，也是另一个区域的开始，利用该特征可以分割图像。

示例性地，对于任意一个像素点I(x，y)，计算该像素点I的梯度的方式如下：像素点I(x，y)的邻域如表1所示。

表1

A0	A1	A2
			A7	I(x，y)	A3
A6	A5	A4

则，像素点I的水平方向梯度为：Gx＝A3-A7；像素点I的竖直方向梯度为：Gy＝A5-A1。

最终像素点I(x，y)的梯度强度为：最终像素点I(x，y)的梯度方向为：/>

1.3计算梯度直方图(HOG)

基于上述1.2所执行的步骤，得到第一个关键主体帧中每个像素点的梯度强度和梯度方向。将原始尺寸为64×128的裁剪图像切分为8×8大小的cell，则得到8×16个cell，每个cell中包含8×8个像素点，每个像素点包含两个值：梯度强度和梯度方向。

可选地，方向梯度直方图(HOG)是在一个8×8的cell里面计算的，则每个cell存在8*8*2＝128个值，统计cell中每个像素点包含的值，得到HOG，将128个值变为9个值，简化计算过程。

示例性地，将0-180度分为9个bins，每个bin用于表示一个度数区间，按照顺序依次为：0、20、40、60、80、100、120、140、160，统计每个像素点所在的bin。如下表2所示，表2为一个cell的梯度直方图(HOG)。

表2

X1	X2	X3	X4	X5	X6	X7	X8	X9
									0	20	40	60	80	100	120	140	160

其中，表2中的数字代表度数区间，X1～X9用于表示所有像素点在对应度数区间内的梯度强度总和。

示例性地，像素点I的梯度方向为80度，属于80所在的bin，梯度强度为2，则X5加2；像素点Q的梯度方向为10度，属于0和20所在的bin中间，梯度强度为4，则按照梯度方向在每个区间所占的比例，按照比例分配梯度强度，即，X1加2、X2加2；以此类推，统计每个cell中像素点的值，得到每个cell的梯度直方图(HOG)。

得到每个cell的HOG后，将2×2个cell组合为一个block，对每个block进行归一化处理(normalize)，得到每个block对应的vector。其中，每个block的vector长度为4×9＝36，该vector为block的特征向量。

在一些实施例中，得到vector后，还可以利用L2-norm算法对36维的vector进行规范化处理，将特征向量中的数值范围变为0-1之间，得到规范化的特征向量，本实施例对此不加以限定。

1.4获得图像的HOG特征向量

每个block得到一个长度为36的vector作为特征向量，则尺寸为64x128的裁剪图像一共可以切分为7x15个block(按照cell步长为1向右滑动)，最终将所有block的特征向量进行连接处理(concat)得到最终的7x15x36＝3780维的HOG特征向量。

其中，HOG特征向量是主体面部检测的结果，用于表示被识别到的主体面部在第一个关键主体帧中的位置坐标，也即在第一个关键主体帧中，存在一个用于表示主体面部所在位置的面部提示框，HOG特征向量即用于表示该面部提示框位置。

上述步骤910用于描述对关键主体帧中进行主体识别的过程，在一些实施例中，对指定时间戳对应的视频图像帧进行主体识别的方式同上步骤910。具体过程表现为：终端接收到对视频文件的指定时间戳的选择操作后，基于该选择操作显示与指定时间戳对应的视频帧，对视频文件中的视频帧进行主体识别，得到主体识别结果，主体识别结果包括从视频帧中识别得到的至少一个主体标识和视频帧中的面部提示框，其中，面部提示框用于指示主体标识对应的主体在视频帧中的位置，基于主体识别结果显示面部提示框和主体标识。

在一些实施例中，对主体标识进行选择，选中目标主体对应的主体标识后，还可以在视频图像帧中以面部提示框和高亮方式显示目标主体的面部，本实施例对此不加以限定。

值得主体的是，对主体面部进行检测的方式可以是任意的，包括但不限于上述用于示例的HOG图像特征提取算法，本实施例对此不加以限定。

2、主体面部对齐：对关键主体帧中识别到的所有主体的面部进行对齐处理，将不同角度的主体面部图像对齐成同一种标准的形状。

先定位主体面部的特征点，获得主体的面部特征信息，再通过几何变换，使各个特征点对齐，确认不同的主体面部属于各自对应的主体。

可选地，几何变换方式包括但不限于仿射变换、旋转变换、缩放变换等，如：依据主体面部的特征点的位置，对不同主体面部图像进行平移、旋转和缩放操作，将主体面部图像进行归一化。

3、主体面部编码：对关键主体帧中识别到的所有主体的面部进行编码处理，将每个主体的面部特征信息转化为向量形式，得到特征向量。也即，将主体面部图像中每个像素点的像素值转换成紧凑且可判别的特征向量。理想情况下，同一个主体的所有面部图像都会映射到相似的特征向量。

示例性地，第一关键主体帧中其中一个主体的特征向量为(-0.23，-0.54，……，0.27)。

步骤920，对目标主体的面部特征信息和关键主体帧中主体的面部特征信息进行匹配，确定包含目标主体的关键主体帧。

其中，获得目标主体的面部特征信息的方式和获得关键主体帧中主体的面部特征信息的方式相同，都是对视频帧(关键主体帧和包含目标主体的视频图像帧)进行主体识别获得。

在一些实施例中，目标主体是由指定时间戳对应的视频图像帧所确定的，同一个主体在不同视频帧中出现的形态可能存在不同，则导致无法直接依靠主体标识进行匹配，也即，目标主体在视频图像帧中的面部特征信息和目标主体在第一个关键主体帧中的面部特征信息可能存在不同，如：目标主体在视频图像帧中出现了正脸，在第一个关键主体帧中出现了侧脸。所以，对目标主体也执行步骤910对应的步骤。对目标主体的面部特征信息进行编码，得到目标特征向量。

对关键主体帧中主体的面部特征信息进行编码，得到主体特征向量。

可选地，以特征向量之间的相似度为标准进行匹配，目标特征向量L1，主体特征向量群L中包含3个特征向量L2、L3、L4，分别计算出L1与L2、L3、L4之间的相似度。

可选地，相似度包括但不限于如下几种形式：(1)欧式距离：也称为欧几里得距离或者欧几里得度量，是一个通常采用的距离定义，它是在m维空间中两个点之间的真实距离。在二维和三维空间中的欧式距离就是两点之间的距离；(2)曼哈顿距离：也称为出租车几何，用来标明两个点在标准坐标系上的绝对坐标轴距离和；(3)余弦距离：也称为余弦相似度，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。

示例性地，L1与L2之间的相似度为0.9、L1与L3之间的相似度为0.1、L1与L4之间的相似度为0.3，预设的相似度阈值为0.8，则L1与L2之间符合相似度要求，则目标主体与特征向量为L2的主体匹配成功，属于同一个主体，也即主体特征向量为L2的主体是目标主体。

基于主体特征向量L2可以在关键主体帧中确定包含目标主体的关键主体帧，同时确定目标主体的面部在这些关键主体帧中的位置坐标。

值得注意的是，相似度阈值可以是任意数值、单位，对目标主体的面部特征信息和关键主体帧中主体的面部特征信息进行匹配的过程中，与目标主体的目标特征向量之间符合相似度要求的主体特征向量的数量可以是任意的，关键主体帧中包含目标主体的情况可以是任意的，本实施例对此不加以限定。

步骤930，显示包含目标主体的关键主体帧。

基于上述步骤910和步骤920，在至少一个关键主体帧中找到包含目标主体的关键主体帧。

在对关键主体帧进行主体识别的过程中，获得了目标主体在关键主体帧中的面部位置坐标、目标主体面部的特征点、目标主体的面部特征信息对应的目标特征向量。在接收到选择目标主体的操作后，基于上述信息快速定位至包含目标主体的关键主体帧，并在进度条显示区域显示包含目标主体的关键主体帧。

本实施例提供的方法，确定目标主体后，对关键主体帧进行主体识别，得到每个关键主体帧中包含主体的情况，每个主体在关键主体帧中的位置坐标主体面部的特征点等信息，在关键主体帧中确定包含目标主体的关键主体帧，在关键主体帧中和目标主体对应的视频图像帧中显示面部提示框，实现目标主体的快速定位、目标主体面部位置的快速定位，并显示包含目标主体的关键主体帧，提高了人机交行的效果，为视频封面设置提供参考，提高了视频封面设置过程的效率。

图11是本申请一个示例性实施例提供的硬件架构图，如图11所示。

硬件组1100中包含电源1101、采集器1102、接收设备1103、输入设备1104、输出设备1105、显示设备1106、处理器1107、数据存储器1108。

电源1101用于对硬件组1100中所有设备供电。

对主体的面部进行检测识别过程中，采集器1102用于对视频帧中主体的面部特征信息进行采集，得到视频帧识别结果数据。通过信号传输的方式将采集到的视频帧识别结果数据发送至接收设备1103。接收设备1103将接收到的数据发送至输入设备1104和处理器1107。其中，输入设备1104继续将数据发送至输出设备1105，由输出设备1105将数据发送至显示设备1106，显示设备1106显示识别结果。处理器1107继续将数据发送至数据存储器1108，由数据存储器1108存储识别结果数据。

图12是本申请一个示例性实施例提供的视频封面的确定装置的结构框图，如图12所示，该装置包括如下部分。

显示模块1210，用于显示封面设置界面，所述封面设置界面用于对视频文件进行封面设置；

所述显示模块1210，还用于对所述视频文件进行主体识别，显示与所述视频文件中视频帧对应的主体识别结果，所述主体识别结果中包括从所述视频帧中识别得到的至少一个主体标识；

所述显示模块1210，还用于响应于接收到在所述至少一个主体标识中对目标主体的选择操作，显示所述视频文件中包含所述目标主体的至少一帧视频帧作为候选封面；

封面确定模块1220，用于接收在所述至少一帧视频帧中对目标视频帧的选择操作，并基于所述目标视频帧确定所述视频文件的封面内容。

在一个可选的实施例中，所述显示模块1210，还用于获取所述视频文件中的多个主体图像帧，所述主体图像帧中包括所述视频文件中出现频率符合频率要求的主体；在所述多个主体图像帧中对所述目标主体进行主体识别，确定包含所述目标主体的至少一帧主体图像帧作为所述候选封面。

在一个可选的实施例中，如图13所示，所述显示模块1210，还包括：

划分单元1211，用于对所述视频文件进行片段划分，得到多个视频片段；

主体识别单元1212，用于针对第i个视频片段，对所述第i个视频片段的多个视频帧进行主体识别，得到多个视频帧分别对应的主体识别结果，其中，所述主体识别结果中包括在所述多个视频帧中的出现频率达到频率阈值的至少一个片段主体，i为正整数；

确定单元1213，用于基于所述至少一个片段主体在所述多个视频帧中的显示面积，从所述多个视频帧中确定与所述第i个视频片段对应的至少一帧主体图像帧。

在一个可选的实施例中，所述确定单元1213还用于当存在多个片段主体时，在所述第i个视频片段中确定连续关键帧片段，所述连续关键帧片段是指同时存在所述多个片段主体的连续关键帧，其中，所述多个片段主体中包括在所述视频片段中出现频率最高的关键主体；基于所述关键主体在所述连续关键帧片段中的显示面积，从所述连续关键帧片段中确定与所述第i个视频片段对应的至少一帧主体图像帧。

在一个可选的实施例中，所述确定单元1213还用于当所述关键主体在所述连续关键帧片段中的显示面积最大时，确定关键主体帧；在所述连续关键帧片段中确定与所述关键主体帧对应的字幕的起止时间戳，并将所述起止时间戳之间的片段确定为关键主体片段；当所述片段主体的显示面积总和最大时，从所述关键主体片段中确定与所述第i个视频片段对应的至少一帧主体图像帧。

在一个可选的实施例中，所述显示模块1210，还包括：

显示单元1214，用于响应于接收到对所述视频文件的指定时间戳的选择操作，显示与所述指定时间戳对应的所述视频帧；

所述主体识别单元1212，还用于对所述视频文件中的所述视频帧进行主体识别，得到所述主体识别结果，所述主体识别结果包括从所述视频帧中识别得到的至少一个所述主体标识和所述视频帧中的面部提示框，所述面部提示框用于指示所述主体标识对应的主体在所述视频帧中的位置；

所述显示单元1214，还用于基于所述主体识别结果显示所述面部提示框和所述主体标识。

在一个可选的实施例中，所述封面确定模块1220，还用于将包含所述目标视频帧的目标视频片段确定为所述视频文件的封面内容，所述目标视频片段是所述视频文件的截取片段。

综上所述，本申请提供的视频封面的确定装置，能够在视频封面设置界面中对视频文件的封面进行设置，选择指定时间戳对应的图像视频帧，显示该图像视频帧中所包含的主体标识，在主体标识中选择目标主体，可以快速定位至包含目标主体的视频帧，为视频封面的选择提供参考，包含目标主体的视频帧能够更好的对视频文件进行表达，基于包含目标主体的视频帧，确定视频文件的封面内容，能够提高封面选择的效率，并提高封面表达的效果，提高视频封面的吸引力。

需要说明的是：上述实施例提供的视频封面的确定装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频封面的确定装置与视频封面的确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图14示出了本申请一个示例性实施例提供的计算机设备1400的结构框图。该计算机设备1400可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。计算机设备1400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，计算机设备1400包括有：处理器1401和存储器1402。

处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1401还可以包括AI处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1401所执行以实现本申请中方法实施例提供的视频封面的确定方法。

在一些实施例中，计算机设备1400还包括其他组件，本领域技术人员可以理解，图14中示出的结构并不构成对终端1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的视频封面的确定方法。

本申请实施例还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的视频封面的确定方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的视频封面的确定方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频封面的确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述响应于接收到在所述至少一个主体标识中对目标主体的选择操作，显示所述视频文件中包含所述目标主体的至少一帧视频帧作为候选封面，包括：

获取所述视频文件中的多个主体图像帧，所述主体图像帧中包括所述视频文件中出现频率符合频率要求的主体；

在所述多个主体图像帧中对所述目标主体进行主体识别，确定包含所述目标主体的至少一帧主体图像帧作为所述候选封面。

3.根据权利要求2所述的方法，其特征在于，所述获取所述视频文件中的多个主体图像帧，包括：

对所述视频文件进行片段划分，得到多个视频片段；

针对第i个视频片段，对所述第i个视频片段的多个视频帧进行主体识别，得到多个视频帧分别对应的主体识别结果，其中，所述主体识别结果中包括在所述多个视频帧中的出现频率达到频率阈值的至少一个片段主体，i为正整数；

基于所述至少一个片段主体在所述多个视频帧中的显示面积，从所述多个视频帧中确定与所述第i个视频片段对应的至少一帧主体图像帧。

4.根据权利要求3所述的方法，其特征在于，所述基于所述至少一个片段主体在所述多个视频帧中的显示面积，从所述多个视频帧中确定与所述第i个视频片段对应的至少一帧主体图像帧，包括：

当存在多个片段主体时，在所述第i个视频片段中确定连续关键帧片段，所述连续关键帧片段是指同时存在所述多个片段主体的连续关键帧，其中，所述多个片段主体中包括在所述视频片段中出现频率最高的关键主体；

基于所述关键主体在所述连续关键帧片段中的显示面积，从所述连续关键帧片段中确定与所述第i个视频片段对应的至少一帧主体图像帧。

5.根据权利要求4所述的方法，其特征在于，所述基于所述关键主体在所述连续关键帧片段中的显示面积，从所述连续关键帧片段中确定与所述第i个视频片段对应的至少一帧主体图像帧，包括：

当所述关键主体在所述连续关键帧片段中的显示面积最大时，确定关键主体帧；

在所述连续关键帧片段中确定与所述关键主体帧对应的字幕的起止时间戳，并将所述起止时间戳之间的片段确定为关键主体片段；

当所述片段主体的显示面积总和最大时，从所述关键主体片段中确定与所述第i个视频片段对应的至少一帧主体图像帧。

6.根据权利要求1至5任一所述的方法，其特征在于，所述对所述视频文件进行主体识别，显示与所述视频文件中视频帧对应的主体识别结果，包括：

响应于接收到对所述视频文件的指定时间戳的选择操作，显示与所述指定时间戳对应的所述视频帧；

对所述视频文件中的所述视频帧进行主体识别，得到所述主体识别结果，所述主体识别结果包括从所述视频帧中识别得到的至少一个所述主体标识和所述视频帧中的面部提示框，所述面部提示框用于指示所述主体标识对应的主体在所述视频帧中的位置；

基于所述主体识别结果显示所述面部提示框和所述主体标识。

7.根据权利要求1所述的方法，其特征在于，所述接收在所述至少一帧视频帧中对目标视频帧的选择操作，并基于所述目标视频帧确定所述视频文件的封面内容，包括：

将包含所述目标视频帧的目标视频片段确定为所述视频文件的封面内容，所述目标视频片段是所述视频文件的截取片段。

8.一种视频封面的确定装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的视频封面的确定方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的视频封面的确定方法。

11.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一所述的视频封面的确定方法。