CN113343832A

CN113343832A - 视频封面判别方法、装置、设备及计算机可读介质

Info

Publication number: CN113343832A
Application number: CN202110610845.2A
Authority: CN
Inventors: 郑宇卿
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-09-03
Anticipated expiration: 2041-06-01
Also published as: CN113343832B

Abstract

本申请涉及一种视频封面判别方法、装置、设备及计算机可读介质。该方法包括：获取第一图像，第一图像为拟作为目标视频的封面图像的图像；提取第一图像的图像特征和目标视频的视频类型特征；利用图像特征和视频类型特征确定目标视频的预测点击量等级；执行与预测点击量等级对应的封面确认操作，封面确认操作用于确认目标视频实际采用的封面图像。本申请解决了视频封面图不具吸引力导致视频点击量不高的技术问题，达到了提高视频点击量的效果。

Description

视频封面判别方法、装置、设备及计算机可读介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种视频封面判别方法、装置、设备及计算机可读介质。

背景技术

短视频的迅猛发展催生了短视频经济，很多创作者依靠制作短视频在视频分享平台上获得经济收入或推广，而影响短视频收入的直接因素就是视频点击量。

目前，相关技术中，为了提高视频点击量，往往是通过创作自己制作各种“夸张”的视频封面图来达到“博眼球”的效果，然而这样一来往往制作的视频封面图与视频实际内容出入较大，或与视频分类不契合，吸引不到真正面向的用户群体，导致视频点击量仍然不高。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请提供了一种视频封面判别方法、装置、设备及计算机可读介质，以解决视频封面图不具吸引力导致视频点击量不高的技术问题。

根据本申请实施例的一个方面，本申请提供了一种视频封面判别方法，包括：

获取第一图像，第一图像为拟作为目标视频的封面图像的图像；

提取第一图像的图像特征和目标视频的视频类型特征；

利用图像特征和视频类型特征确定目标视频的预测点击量等级；

执行与预测点击量等级对应的封面确认操作，封面确认操作用于确认目标视频实际采用的封面图像。

可选地，提取第一图像的图像特征和目标视频的视频类型特征包括：

将第一图像输入第一识别模型，并获取第一识别模型输出的图像特征和目标视频的视频类型特征，图像特征包括第一识别模型分割第一图像后识别分割图像得到的第一图像中包括的物体，以及第一识别模型确定的物体在第一图像中的占比；第一识别模型为利用具有标记信息的预先定义的训练数据对第二识别模型进行训练得到的，标记信息用于标记训练数据中的物体和视频类型。

可选地，将第一图像输入第一识别模型之前，所述方法还包括按照如下方式设置预先定义的所述训练数据：

获取视频封面图像，视频封面图像来源于多个类型的视频分区，不同类型的视频分区对应的用户群体不同；

按照物体类型与颜色的第一预设对应关系，对物体区域进行第一染色处理，按照视频类型与颜色的第二预设对应关系，对预设区域进行第二染色处理，第一染色处理用于标注视频封面图像中记录的物体的物体类型，第二染色处理用于标注视频封面图像的视频类型，得到训练数据。

可选地，采用不同的颜色对视频封面图像进行标注之后，所述方法还包括：

将标注操作生成的目标文件转化为目标图像，目标文件中的数据按照目标格式进行编码；

将目标图像转化为灰度图，并按照颜色与标识符号的第三预设对应关系将目标图像上的标注颜色映射为标识符号，以利用标识符号在灰度图中标识物体的物体类型和视频封面图像的视频类型，得到训练数据。

可选地，将第一图像输入第一识别模型之前，所述方法还包括按照如下方式训练得到第一识别模型：

按照预设样本数量提取训练数据；

初始化第二识别模型各网络层中的参数，得到第三识别模型，并利用训练数据对第三识别模型进行训练，第二识别模型各网络层中的参数包括空洞卷积扩张率，空洞卷积扩张率用于确定识别模型中空洞卷积的卷积核尺寸；

在第三识别模型对测试数据的识别准确度达到第一目标阈值的情况下，将第三识别模型作为第一识别模型；

在第三识别模型对测试数据的识别准确度未达到第一目标阈值的情况下，继续使用训练数据对第三识别模型进行训练，以调整第三识别模型各参数的数值，直至第三识别模型对测试数据的识别准确度达到第一目标阈值。

可选地，利用图像特征和视频类型特征确定目标视频的预测点击量等级包括：

将图像特征和视频类型特征输入第一分类模型，并获取第一分类模型输出的目标视频的预测点击量等级，预测点击量等级为按照多个不同的预设点击量阈值划分的等级，第一分类模型为利用具有标记信息的训练数据对第二分类模型进行训练得到的，标记信息用于标记训练数据的视频点击量等级。

可选地，将图像特征和视频类型特征输入第一分类模型之前，所述方法还包括按照如下方式训练得到第一分类模型：

获取训练数据；

初始化第二分类模型各网络层中的参数，得到第三分类模型，并利用训练数据对第三分类模型进行训练，第三分类模型通过恒等映射的方式在输入层与输出层之间建立关联关系，以使得第三分类模型在训练过程中学习输入数据与输出数据的残差特征，残差特征用于优化第三分类模型的预测结果；

在第三分类模型对测试数据的预测准确度达到第二目标阈值的情况下，将第三分类模型作为第一分类模型；

在第三分类模型对测试数据的预测准确度未达到第二目标阈值的情况下，继续使用训练数据对第三分类模型进行训练，以调整第三分类模型各参数的数值，直至第三分类模型对测试数据的预测准确度达到第二目标阈值。

可选地，执行与预测点击量等级对应的封面确认操作包括：

在预测点击量等级达到预设期望等级的情况下，将第一图像确定为目标视频的封面图像；

在预测点击量等级未达到预设期望等级的情况下，按照目标视频中各个视频帧的时间戳逐帧提取目标视频的视频帧；提取视频帧的图像特征；根据视频帧的图像特征确定预测点击量等级，直至得到的预测点击量等级达到预设期望等级的情况下，将当前视频帧确定为目标视频的封面图像。

可选地，在预测点击量等级未达到预设期望等级的情况下，所述方法还包括：

获取与视频类型特征相同的封面示例图像；

向目标对象发送重新提交封面提示信息和封面示例图像，以使目标对象参照封面示例图像提交达到预设期望等级的封面图像。

根据本申请实施例的另一方面，本申请提供了一种视频封面判别装置，包括：

图像获取模块，用于获取第一图像，第一图像为拟作为目标视频的封面图像的图像；

特征提取模块，用于提取第一图像的图像特征和目标视频的视频类型特征；

点击量预测模块，用于利用图像特征和视频类型特征确定目标视频的预测点击量等级；

封面确认模块，用于执行与所述预测点击量等级对应的封面确认操作，封面确认操作用于确认所述目标视频实际采用的封面图像。

根据本申请实施例的另一方面，本申请提供了一种电子设备，包括存储器、处理器、通信接口及通信总线，存储器中存储有可在处理器上运行的计算机程序，存储器、处理器通过通信总线和通信接口进行通信，处理器执行计算机程序时实现上述方法的步骤。

根据本申请实施例的另一方面，本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，程序代码使处理器执行上述的方法。

本申请实施例提供的上述技术方案与相关技术相比具有如下优点：

本申请技术方案为获取第一图像，第一图像为拟作为目标视频的封面图像的图像；提取第一图像的图像特征和目标视频的视频类型特征；利用图像特征和视频类型特征确定目标视频的预测点击量等级；执行与预测点击量等级对应的封面确认操作，封面确认操作用于确认目标视频实际采用的封面图像。本申请对第一图像先进行识别，以提取图像特征，进而利用图像特征预测目标视频的点击量等级，即对目标视频的预测点击量进行分类，最后根据分类结果确定该第一图像是否能够作为目标视频的封面图像，解决了视频封面图不具吸引力导致视频点击量不高的技术问题，达到了提高视频点击量的效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本申请实施例提供的一种可选的视频封面判别方法硬件环境示意图；

图2为根据本申请实施例提供的一种可选的视频封面判别方法流程图；

图3为根据本申请实施例提供的一种可选的视频封面判别装置框图；

图4为本申请实施例提供的一种可选的电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身并没有特定的意义。因此，“模块”与“部件”可以混合地使用。

为了解决背景技术中提及的问题，根据本申请实施例的一方面，提供了一种视频封面判别方法的实施例。

可选地，在本申请实施例中，上述视频封面判别方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示，服务器103通过网络与终端101进行连接，可用于为终端或终端上安装的客户端提供服务，可在服务器上或独立于服务器设置数据库105，用于为服务器103提供数据存储服务，上述网络包括但不限于：广域网、城域网或局域网，终端101包括但不限于PC、手机、平板电脑等。

本申请实施例中的一种视频封面判别方法可以由服务器103来执行，还可以是由服务器103和终端101共同执行，如图2所示，该方法可以包括以下步骤：

步骤S202，获取第一图像，第一图像为拟作为目标视频的封面图像的图像。

本申请实施例中，目标视频为在视频分享平台上待分享内容的视频，封面图像用于向用户展示待分享内容的主旨内容。

本申请实施例中，创作者在制作完成视频将要在视频分享平台上进行分享时，需要提交视频封面图用于向用户展示待分享内容的主旨内容，例如，美食类视频可以在视频封面图中体现制作完成的美食，美妆类视频可以在视频封面图中体现画完妆的容颜，搞笑类视频可以在视频封面图中体现包袱等等。目标视频即为创作者创作完成或正在创作的视频，第一图像可以是创作者提交的准备作为该目标视频封面图像的图像。

步骤S204，提取第一图像的图像特征和目标视频的视频类型特征。

本申请实施例中，图像特征用于通过颜色、纹理、形状以及空间关系中的至少之一表示第一图像的内容。

本申请实施例中，为了利用创作者提交的第一图像对目标视频进行点击量等级预测，首先可以通过识别模型提取第一图像的图像特征，并能基于第一图像提取出目标视频的视频类型特征。图像特征可以是该第一图像中的物体、物体的纹理、物体的形状以及多个物体之间的空间关系等等，如上述美食视频的封面图像中的美食的色泽、摆盘、食材等，美妆视频中所用化妆品种类、款式、妆容效果等，搞笑类视频中配文、搞笑贴图、排版等。以及，图像特征还可以包括美食在整幅封面图像中的占比、化妆品种类、妆容效果在整幅封面图像中的占比、搞笑配文、贴图在封面图像中的占比等等。

步骤S206，利用图像特征和视频类型特征确定目标视频的预测点击量等级。

本申请实施例中，利用图像特征和视频类型特征得到预测点击量等级可以通过分类模型来实现，从而得到大致的点击量范围，也可以通过回归模型预测出较为细致的点击量。预测点击量等级可以划分为高点击量、中点击量、低点击量等，高点击量可以对应50万以上，中点击量可以对应10万以上50万以下，低点击量可以对应10万以下，还可以进一步细分为更多的等级，在此不再赘述。

步骤S208，执行与预测点击量等级对应的封面确认操作，封面确认操作用于确认目标视频实际采用的封面图像。

本申请实施例中，可以通过分类模型利用图像特征和视频类型特征预测出可能的预测点击量等级，进而根据预测点击量等级执行封面确认操作，如预测点击量等级较高，则确定第一图像作为该目标视频的封面图像，若预测点击量较低，则重新选取封面图像或提示创作者重新提交新的封面图像。

通过步骤S202至S208，本申请对第一图像先进行识别，以提取图像特征和视频类型特征，进而利用图像特征和视频类型特征预测目标视频的点击量等级，即对目标视频的预测点击量进行分类，最后根据分类结果确定该第一图像是否能够作为目标视频的封面图像，解决了视频封面图不具吸引力导致视频点击量不高的技术问题，达到了提高视频点击量的效果。

本申请实施例中，可以采用deeplab算法构建识别模型，作为一种可选的实施方式，具体可以采用deeplabv3。deeplabv3是基于VGG-16模型构建的网络结构，在13个卷积层和3个全连接层的基础上，还使用了Multi-Grid策略，即在模型后端多加几层不同空洞卷积扩张率的空洞卷积，空洞卷积扩张率是决定空洞卷积的卷积核尺寸的参数，通过调整空洞卷积扩张率可以调整滤波器的感受野，这决定了深度神经网络计算得到的特征的分辨率。

本申请实施例中，识别模型首先将第一图像进行分割，从而分割出物体。可以采用基于区域的图像分割，可以采用基于边缘的图像分割，或是采用其他分割算法，最终目的是提取出第一图像中包含的物体。分割图像之后，识别模型即可对分割出来的物体进行识别，进而提取出图像特征。识别的物体可以包括人物、美食、化妆品、工具、衣着、配文、贴图形状等。不仅如此，识别模型还可以在识别出物体之后，计算该物体在整幅图像中的占比，作为图像特征之一，还可以根据第一图像识别目标视频的视频类型作为图像特征之一，如包含美食的第一图像则识别为美食类视频，包含妆容的第一图像则识别为美妆类视频，配文中包含影视剧名称的第一图像则识别为影视类视频等等。

进一步地，采用不同的颜色对视频封面图像进行标注之后，所述方法还包括：

本申请实施例中，可以在基于互联网的视频分享平台上收集视频封面图，具体每个视频分享平台可以从多个类型的视频分区内收集视频封面图，如美食区、美妆区、影视区、搞笑区、二次元区、军事区等等。

收集到大量垂类的视频封面图之后，为了均一化图像大小，可以对所有图像进行缩放，直至调整为统一尺寸，该统一尺寸可以根据识别模型的限制条件、实际需求来确定。并且，使用均一化尺寸的图像进行训练，可以减小训练时GPU(Graphics Processing Unit，图形处理器)的负载。除了缩放手段之外，还可以根据需要进行裁剪，如横屏图像裁剪为竖屏图像，或竖屏图像裁剪为横屏图像等等。裁剪之后，可以利用数据标注平台或大数据标注软件对每个图像的视频类型和图像中的物体的物体类型进行标注，还可以标注物体在整幅图像中的占比情况。

本申请实施例中，可以根据物体类型与颜色的第一预设对应关系将图像中的物体进行染色，即将物体所在的目标区域设置RGB数值。该第一预设对应关系可以是根据物体分类确定的物体类型到颜色的映射关系，如使用红色标注美食，使用蓝色标注人物，使用粉色标注美妆用品，使用灰色标注配文等等，还可以对同一视频分类中的物体进行细分，如使用红色标注肉类，使用绿色标注蔬菜类，使用黄色标注豆类等，具体可以根据实际情况进行设置。还可以是：根据视频类型与颜色的第二预设对应关系将图像某一区域进行染色，如对图像边角的一个、两个或多个像素格设置RGB数值。该第二预设对应关系可以是根据视频分类确定的视频类型到颜色的映射关系，如使用红色标注美食类，使用蓝色标注人物传记类，使用粉色标注时尚类等等。

此时便可得到训练集。物体类型与颜色的第一预设对应关系可以通过colormap来保存，视频类型与颜色的第二预设对应关系可以通过colormap来保存。一个训练样本的标注内容可以如：标注某一图像所述的视频类型为美食类，标注该图像中的食物，还可以标注该图像中食物在整幅图像中的占比数据。

本申请实施例中，标注操作会使得系统利用标注数据和原图像生成json文件，即目标文件。json是一种取代xml的数据结构，和xml相比，json更小巧但描述能力却不差，由于它的小巧所以网络传输数据将减少更多流量从而加快速度。json就是一串字符串，只不过元素会使用特定的符号标注，如用大括号表示的内容为对象，用中括号表示的内容为数组，用双引号表示的内容为属性或值，而用冒号连接的两个值表示后者是前者的值(这个值可以是字符串、数字、也可以是另一个数组或对象)，如{"name":"Michael"}可以理解为是一个包含name为Michael的对象，而[{"name":"Michael"}，{"name":"Jerry"}]就表示包含两个对象的数组。在本申请实施例中，标注操作生成的json文件的内容可以是：[{"type":"delicacy"}，{"object":"chicken"}]，表示一幅图被标注为视频类型：美食，物体：鸡肉。

本申请实施例中，为了增强分类效果，并进一步提高处理效率，减小GPU负载，还可以将json文件先转化为目标图像，此时目标图像是染色的彩色图像，所染颜色即为标注视频类型和物体类型。再将目标图像转化为灰度图，同时按照颜色与标识符号的第三预设对应关系将标注的颜色改为使用简单的标识符号来表示，如整形数值、圆、三角、正方形、字母标识等，如此可以控制分类数量、增强分类效果，并进一步提高处理效率。

按照预设样本数量提取训练数据；

本申请实施例中，可以通过改变识别模型的参数如batchsize(样本数量)、atrous_rates(空洞卷积扩张率)等进行模型训练。第二识别模型为初始识别模型，通过初始化参数之后得到第三识别模型，即中间训练模型，使用训练数据对第三识别模型进行训练，直至第三识别模型的识别准确度达到第一目标阈值时，将第三识别模型作为第一识别模型，即训练完成的识别模型。第一目标阈值可以根据实际情况、实际需要进行设置。

可选地，使用训练数据对第三识别模型进行训练，以调整第三识别模型各参数的数值，直至第三识别模型对测试数据的识别准确度达到第一目标阈值可以包括：分别将每一个训练样本输入第三识别模型，得到物体类型的训练预测值；根据多个训练预测值和对应的训练样本中的实际物体类型之间的差异确定损失值；利用多个损失值修正第三识别模型的参数，直至第三识别模型输出结果的精度达到第一目标阈值。

识别模型可以根据领域进行训练，如美食类、时尚类、美妆类、影视类、搞笑类等，还可以在训练数据足够大、模型参数足够多的情况下进行全类别训练。

本申请实施例中，可以通过分类模型来对目标视频的点击量等级进行预测。预测点击量等级为按照多个不同的预设点击量阈值划分的等级，如高点击量、中点击量、低点击量等，高点击量可以对应50万以上，中点击量可以对应10万以上50万以下，低点击量可以对应10万以下，还可以进一步细分为更多的等级。训练数据的标注信息可以标注对应视频的点击量等级。

本申请实施例中，分类模型可以计算图像特征与视频类型特征的契合度，如与美食类视频契合度高的是美食相关的特征，与美妆类视频契合度高的是化妆品、妆容效果的相关特征，与搞笑类视频契合度高的是搞笑元素的相关特征。基于契合度和用户喜好的预测，得到目标视频的预测点击量等级。

本申请实施例中，还可以采用回归模型来预测目标视频的点击量，回归模型通过对图像特征进行回归分析预测出目标视频的点击量，训练回归模型的训练数据可以标注上对应视频的实际点击量。

可选地，将图像特征输入第一分类模型之前，所述方法还包括按照如下方式训练得到第一分类模型：

获取训练数据；

本申请实施例中，第二分类模型为初始分类模型，通过初始化参数之后得到第三分类模型，即中间训练模型，使用训练数据对第三分类模型进行训练，直至第三分类模型的识别准确度达到第二目标阈值时，将第三分类模型作为第一分类模型，即训练完成的分类模型。第二目标阈值可以根据实际情况、实际需要进行设置。

分类模型可以采用卷积神经网络模型，还可以采用resnet分类网络。使用resnet分类网络可以减少深度学习的网络层数，并且通过恒等映射的方式在输入层与输出层之间建立关联关系，能够使得分类模型在训练过程中学习输入数据与输出数据的残差特征，从而优化分类模型的预测结果，提高分类模型的输出准确率。不仅如此，resnet分类网络的模型较为简单，准确率较高且速度快，可以适应对封面图快速分类的需求。

可选地，使用训练数据对第三分类模型进行训练，以调整第三分类模型各参数的数值，直至第三分类模型对测试数据的预测准确度达到第二目标阈值可以包括：分别将每一个训练样本输入第三分类模型，得到点击量等级的训练预测值；根据多个训练预测值和对应的训练样本中的点击量等级之间的差异确定损失值；利用多个损失值修正第三分类模型的参数，直至第三分类模型输出结果的精度达到第二目标阈值。

可选地，执行与预测点击量等级对应的封面确认操作包括：

获取与视频类型特征相同的封面示例图像；

本申请实施例中，预设期望等级可以是创作者自定义的，也可以直接选择系统提供的期望等级选项，如高点击量。在预测点击量等级达到预设期望等级的情况下，说明第一图像对目标用户群体具有极大的吸引力，将第一图像作为目标视频的封面图像具备较大可能获得高点击量，因此可以将第一图像作为目标视频的封面图像。

若预测点击量等级未达到预设期望等级，说明第一图像不具备足够的吸引力，不能将第一图像作为目标视频的封面图像，需要重新选取封面图像或向创作者(即目标对象)发送重新提交封面提示信息，以使创作者根据提示信息提交达到预设期望等级的封面图像。

重新选取封面图像可以是遍历目标视频的每一视频帧，逐帧提取图像特征，再利用图像特征确定预测点击量等级，以预测将该视频帧作为封面图像后该目标视频的点击量，若达到预设期望等级，则可以将当前视频帧作为该目标视频的封面图像。逐帧提取图像特征时，可以先确定当前封面图像对应的目标视频的时间戳范围，按照时间戳的顺序逐帧提取视频帧。若用户选择的当前封面图像为目标视频的视频帧之一，则在目标视频的所有视频帧中找到该封面图像对应的视频帧，再以当前封面图像的时间戳为基点，选取前后预设时间段内的视频帧进行筛选是否存在达到预设期望等级的视频帧。

向创作者(即目标对象)发送重新提交封面提示信息时，可以按照创作者提交的目标视频的视频类型，选取相同类型下的封面示例图像供创作者参考。

根据本申请实施例的又一方面，如图3所示，提供了一种视频封面判别装置，包括：

图像获取模块301，用于获取第一图像，第一图像为拟作为目标视频的封面图像的图像；

特征提取模块303，用于提取第一图像的图像特征和目标视频的视频类型特征；

点击量预测模块305，用于利用图像特征和视频类型特征确定目标视频的预测点击量等级；

封面确认模块307，用于执行与所述预测点击量等级对应的封面确认操作，封面确认操作用于确认所述目标视频实际采用的封面图像。

需要说明的是，该实施例中的图像获取模块301可以用于执行本申请实施例中的步骤S202，该实施例中的特征提取模块303可以用于执行本申请实施例中的步骤S204，该实施例中的点击量预测模块305可以用于执行本申请实施例中的步骤S206，该实施例中的封面确认模块307可以用于执行本申请实施例中的步骤S208。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

可选地，该特征提取模块，具体用于：

可选地，该视频封面判别装置，还包括识别模型训练集获取模块，用于：

可选地，该识别模型训练集获取模块，还用于：

可选地，该视频封面判别装置，还包括第一训练模块，用于：

按照预设样本数量提取训练数据；

可选地，该点击量预测模块，具体用于：

可选地，该视频封面判别装置，还包括第二训练模块，用于：

获取训练数据；

可选地，该封面确认模块，具体用于：

可选地，该封面确认模块，还用于：

获取与视频类型特征相同的封面示例图像；

根据本申请实施例的另一方面，本申请提供了一种电子设备，如图4所示，包括存储器401、处理器403、通信接口405及通信总线407，存储器401中存储有可在处理器403上运行的计算机程序，存储器401、处理器403通过通信接口405和通信总线407进行通信，处理器403执行计算机程序时实现上述方法的步骤。

上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。

可选地，在本申请实施例中，计算机可读介质被设置为存储用于所述处理器执行以下步骤的程序代码：

提取第一图像的图像特征和目标视频的视频类型特征；

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本申请实施例在具体实现时，可以参阅上述各个实施例，具有相应的技术效果。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频封面判别方法，其特征在于，包括：

获取第一图像，其中，所述第一图像为拟作为目标视频的封面图像的图像；

提取所述第一图像的图像特征和所述目标视频的视频类型特征；

利用所述图像特征和所述视频类型特征确定所述目标视频的预测点击量等级；

执行与所述预测点击量等级对应的封面确认操作，其中，所述封面确认操作用于确认所述目标视频实际采用的封面图像。

2.根据权利要求1所述的方法，其特征在于，提取所述第一图像的图像特征和所述目标视频的视频类型特征包括：

将所述第一图像输入第一识别模型，并获取所述第一识别模型输出的所述图像特征和所述目标视频的视频类型特征，其中，所述图像特征包括所述第一识别模型分割所述第一图像后识别分割图像得到的所述第一图像中包括的物体，以及所述第一识别模型确定的所述物体在所述第一图像中的占比；所述第一识别模型为利用具有标记信息的预先定义的训练数据对第二识别模型进行训练得到的，所述标记信息用于标记所述训练数据中的物体和视频类型。

3.根据权利要求2所述的方法，其特征在于，将所述第一图像输入第一识别模型之前，所述方法还包括按照如下方式设置预先定义的所述训练数据：

获取视频封面图像，其中，所述视频封面图像来源于多个类型的视频分区，不同类型的视频分区对应的用户群体不同；

按照物体类型与颜色的第一预设对应关系，对物体区域进行第一染色处理，按照视频类型与颜色的第二预设对应关系，对预设区域进行第二染色处理，其中，所述第一染色处理用于标注所述视频封面图像中记录的物体的物体类型，所述第二染色处理用于标注所述视频封面图像的视频类型，得到所述训练数据。

4.根据权利要求3所述的方法，其特征在于，采用不同的颜色对所述视频封面图像进行标注之后，所述方法还包括：

将标注操作生成的目标文件转化为目标图像，其中，所述目标文件中的数据按照目标格式进行编码；

将所述目标图像转化为灰度图，并按照颜色与标识符号的第三预设对应关系将所述目标图像上的标注颜色映射为标识符号，以利用所述标识符号在所述灰度图中标识所述物体的物体类型和所述视频封面图像的视频类型，得到所述训练数据。

5.根据权利要求1所述的方法，其特征在于，利用所述图像特征和所述视频类型特征确定所述目标视频的预测点击量等级包括：

将所述图像特征和所述视频类型特征输入第一分类模型，并获取所述第一分类模型输出的所述目标视频的所述预测点击量等级，其中，所述预测点击量等级为按照多个不同的预设点击量阈值划分的等级；所述第一分类模型为利用具有标记信息的训练数据对第二分类模型进行训练得到的，所述标记信息用于标记所述训练数据的视频点击量等级。

6.根据权利要求1至5任一所述的方法，其特征在于，执行与所述预测点击量等级对应的封面确认操作包括：

在所述预测点击量等级达到预设期望等级的情况下，将所述第一图像确定为所述目标视频的所述封面图像；

在所述预测点击量等级未达到所述预设期望等级的情况下，按照所述目标视频中各个视频帧的时间戳逐帧提取所述目标视频的视频帧；提取所述视频帧的图像特征；根据所述视频帧的所述图像特征确定预测点击量等级，直至得到的所述预测点击量等级达到所述预设期望等级的情况下，将当前视频帧确定为所述目标视频的所述封面图像。

7.根据权利要求6所述的方法，其特征在于，在所述预测点击量等级未达到所述预设期望等级的情况下，所述方法还包括：

获取与所述视频类型特征相同的封面示例图像；

向目标对象发送重新提交封面提示信息和所述封面示例图像，以使所述目标对象参照所述封面示例图像提交达到所述预设期望等级的封面图像。

8.一种视频封面判别装置，其特征在于，包括：

图像获取模块，用于获取第一图像，其中，所述第一图像为拟作为目标视频的封面图像的图像；

特征提取模块，用于提取所述第一图像的图像特征和所述目标视频的视频类型特征；

点击量预测模块，用于利用所述图像特征和所述视频类型特征确定所述目标视频的预测点击量等级；

封面确认模块，用于执行与所述预测点击量等级对应的封面确认操作，其中，所述封面确认操作用于确认所述目标视频实际采用的封面图像。

9.一种电子设备，包括存储器、处理器、通信接口及通信总线，所述存储器中存储有可在所述处理器上运行的计算机程序，所述存储器、所述处理器通过所述通信总线和所述通信接口进行通信，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1至7任一所述方法。