CN115695948A

CN115695948A - 一种视频封面的设置方法、装置、设备及存储介质

Info

Publication number: CN115695948A
Application number: CN202211184454.XA
Authority: CN
Inventors: 王传鹏; 李腾飞; 卢炬康
Original assignee: Anhui Shangquwan Network Technology Co ltd
Current assignee: Anhui Shangquwan Network Technology Co ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-02-03

Abstract

本发明公开了一种视频封面的设置方法、装置、设备及存储介质，该方法包括：获取内容为介绍业务对象的视频数据，视频数据中具有多帧图像数据；对至少部分图像数据计算表示重要程度的摘要值；根据业务对象对摘要值进行调整；若完成调整摘要值，则根据摘要值提取其中一帧图像数据，作为视频数据的封面。根据业务对象对摘要值进行微调，使得摘要值与业务对象适配度增加，使得各帧图像数据的摘要值在整体上体现出推广业务对象的语义，提高选择视频数据的封面精确度，从而符合视频数据推广业务对象的作用。

Description

一种视频封面的设置方法、装置、设备及存储介质

技术领域

本发明涉及多媒体的技术领域，尤其涉及一种视频封面的设置方法、装置、设备及存储介质。

背景技术

在推广游戏、电子产品等业务对象的场景中，常使用视频数据介绍游戏、电子产品等业务对象，视频数据以画面、声音的方式呈现游戏、电子产品等业务对象的信息，方便用户阅读。

为了对视频数据的内容进行表征，会对视频数据选择封面，封面作为视频内容的第一眼信息，很大程度上影响着用户的浏览视频数据的意愿。

目前，大多是使用深度学习理解视频数据的内容，选出最优的关键帧作为视频数据的封面。

但是，在推广游戏、电子产品等业务对象的场景中，视频数据的内容是属于浅层次的语义，使得使用深度学习选择视频数据的封面精确度较低。

发明内容

本发明提供了一种视频封面的设置方法、装置、设备及存储介质，以解决如何在推广业务对象的场景中提高选择视频数据的封面的精确度。

根据本发明的一方面，提供了一种视频封面的设置方法，包括：

获取内容为介绍业务对象的视频数据，所述视频数据中具有多帧图像数据；

对至少部分所述图像数据计算表示重要程度的摘要值；

根据所述业务对象对所述摘要值进行调整；

若完成调整所述摘要值，则根据所述摘要值提取其中一帧所述图像数据，作为所述视频数据的封面。

根据本发明的另一方面，提供了一种视频封面的设置装置，包括：

视频数据获取模块，用于获取内容为介绍业务对象的视频数据，所述视频数据中具有多帧图像数据；

摘要值计算模块，用于对至少部分所述图像数据计算表示重要程度的摘要值；

摘要值调整模块，用于根据所述业务对象对所述摘要值进行调整；

封面挑选模块，用于若完成调整所述摘要值，则根据所述摘要值提取其中一帧所述图像数据，作为所述视频数据的封面。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的视频封面的设置方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行时实现本发明任一实施例所述的视频封面的设置方法。

在本实施例中，获取内容为介绍业务对象的视频数据，视频数据中具有多帧图像数据；对至少部分图像数据计算表示重要程度的摘要值；根据业务对象对摘要值进行调整；若完成调整摘要值，则根据摘要值提取其中一帧图像数据，作为视频数据的封面。根据业务对象对摘要值进行微调，使得摘要值与业务对象适配度增加，使得各帧图像数据的摘要值在整体上体现出推广业务对象的语义，提高选择视频数据的封面精确度，从而符合视频数据推广业务对象的作用。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种视频封面的设置方法的流程图；

图2是根据本发明实施例一提供的一种摘要值的示例图；

图3是根据本发明实施例二提供的一种视频封面的设置装置的结构示意图；

图4是实现本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供的一种视频封面的设置方法的流程图，本实施例可适用于根据业务对象调整视频数据中各帧图像数据的重要程度、从而挑选封面的情况，该方法可以由视频封面的设置装置来执行，该视频封面的设置装置可以采用硬件和/或软件的形式实现，该视频封面的设置装置可配置于电子设备中。如图1所示，该方法包括：

步骤101、获取内容为介绍业务对象的视频数据。

在实际应用中，用户可以在生活、学习、工作等情况中针对待推广的业务对象采集或制作不同内容的视频数据，该视频数据在后期处理中等待添加封面。

所谓业务对象，是指在不同的业务场景中分布有具备该业务场景中业务特性的对象。

进一步而言，业务对象可以是实体物品，例如，手机、平板电脑、智能手表，等等，业务对象也可以为虚拟数据，多为第三方的应用程序，例如，游戏、游戏分发应用、短视频应用、购物应用，等等，本实施例对此不加以限制。

为使本领域技术人员更好地理解本发明，在本实施例中，将游戏作为业务对象的一种示例进行说明。

其中，游戏的类型可以包括MOBA(Multiplayer Online Battle Arena，多人在线战术竞技游戏)、RPG(Role-playing game，角色扮演游戏)、SLG(Simulation Game，策略类游戏)，等等，本实施例对此不加以限制。

针对既定的业务对象，可能会在不同的渠道进行推广，不同的渠道在时长、内容等方面存在差异，为了方便后续的推广，美术人员可以预先制作一个或多个可覆盖不同渠道的视频数据，这些视频数据可以按照渠道的规范进行编辑，例如，视频数据的时长较长，该时长大于或等于所有渠道限制的时长，使得美术人员可针对特定的渠道进行剪辑，视频数据并未配置背景音乐，使得美术人员可针对特定的渠道配置背景音乐，等等。

进一步而言，该原始视频数据的内容(包含画面与声音)与业务对象相关，可用于介绍业务对象、对业务对象进行推广。

以游戏为例，视频数据的内容可以划分为游戏的内容、真实的剧情两种主要的形式，其中，游戏的内容可以为用户控制游戏的过程介绍，也可以为代言人介绍游戏，还可以是代言人穿着游戏中的服饰进行介绍，而剧情可以进一步划分为如下类别：

1、伪美食分享

视频数据包含一些美食类的素材，吸引起用户的注意，植入玩游戏吃美食的玩法。

2、贴近用户生活题材

视频数据的内容贴近用户现在的生活状态，将游戏植入到生活的方方面面，如玩游戏吃饭、买零食等。这类素材前半段主要以2人对话为主，后半段为游戏的植入片段。

3、夸张情景剧

视频数据包含情景剧的素材，某些剧情较为夸张，用以吸引起用户的注意。

当然，上述视频数据只是作为示例，在实施本实施例时，可以根据实际业务对象的情况设置其它视频数据，本实施例对此不加以限制。另外，除了上述视频数据外，本领域技术人员还可以根据实际需要采用其它视频数据，本实施例对此也不加以限制。

在实际应用中，视频数据中具有多帧图像数据，为了介绍并推广业务对象，在不同的图像数据中通常配置有图标(Logo)、横幅信息(Banner)、结束片段(Ending Card，EC)等信息。

其中，图标Logo为业务对象自身的标志，可以为文字性的图标Logo(包含业务对象的名称)、也可以为图形性的图标Logo。

横幅信息Banner一般为矩形的信息，通常位于图像数据的顶部和/或底部，可记录业务对象自身的信息(如游戏中的画面、游戏中的角色、名称)、吸引用户购置或下载业务对象的信息(如礼品码)。

结束片段EC中具有下载业务对象的标识，例如，业务对象自身的信息(如游戏中的画面、角色、名称)、购置或下载业务对象的方式(如应用分发平台的图标、应用分发平台的名称及图标、购物平台的名称及图标等)。

进一步而言，由于美术设计、录制视频数据的设备等因素，在视频数据中可能会存在部分图像数据明显不适合作为封面，对此，本实施例可以对视频数据进行预处理，使用一些简单的条件滤除出这部分明显不适合作为封面图像数据，从而降低图像数据的数量，降低后续的运算量。

在一个示例中，视频数据可能会存在转场的动画，这些动画大多为黑色、白色等单一颜色的图像数据，这些转场的动画内的图像数据并不表达出具体的信息，并不适合设置为封面。

在本示例中，可以使用对所有像素点按照色彩值进行聚类、按照色彩值统计占比等方式对每帧图像数据计算在整体上表征的色彩值，这是一个单一的色彩值，按照色彩值滤除与封面不适配的图像数据，例如，该色彩值的占比超过某个阈值，色彩值的数量超过某个阈值，等等，即，单一的色彩值的占比较高，有较大的概率为转场的动画，并不适合作为封面。

在另一个示例中，考虑到录制视频数据时录制的设备(如移动终端)可能存在一定的抖动，由于视频数据的帧率较高、在设计时对部分帧的内容进行了化简等因素，视频数据中可能会存在画面模糊的图像数据，这些画面模糊的图像数据表达信息较为模糊，并不适合设置为封面。

在本示例中，可以使用Tenengrad梯度法、Laplacian(拉普拉斯)梯度法和方差法等方法对每帧图像数据计算模糊度，从而按照模糊度滤除与封面不适配的图像数据，如模糊度超过某个阈值等，表示图像数据的模糊程度较高，并不适合作为封面。

当然，上述滤除图像数据的方式只是作为示例，在实施本发明实施例时，可以根据实际情况设置其它滤除图像数据的方式，本发明实施例对此不加以限制。另外，除了上述滤除图像数据的方式外，本领域技术人员还可以根据实际需要采用其它滤除图像数据的方式，本发明实施例对此也不加以限制。

步骤102、对至少部分图像数据计算表示重要程度的摘要值。

在本实施例中，可以在视频数据中选定挑选封面的范围，挑选封面的范围可以覆盖部分视频数据，也可以覆盖全部视频数据。

在挑选封面的范围内，针对每帧图像数据，可以使用深度学习、业务规则(如在业务上设置多个目标及其分数，在画面上检测到目标时按照其分数进行增减，最终得到摘要值)等方式对其视觉语义(即画面内容)上的重要程度进行量化，得到摘要值。

一般情况下，某帧图像数据摘要值越大，该帧图像数据在视觉语义上的重要程度越高，反之，某帧图像数据摘要值越小，该帧图像数据在视觉语义上的重要程度越低。

如图2所示，各帧图像数据的摘要值可以以坐标系的方式记录，其中，坐标系的横轴为某帧(frame)图像数据的ID，纵轴为某帧图像数据的摘要值(frame_score)。

在本发明的一个实施例中，步骤102可以包括如下步骤：

步骤1021、加载摘要生成网络。

步骤1022、将至少部分图像数据输入摘要生成网络中进行处理，得到图像数据在视觉上表示重要程度的摘要值。

在本实施例中，可以预先构建并训练基于深度学习的摘要生成网络，该摘要生成网络用于对图像数据计算摘要值。

其中，摘要生成网络的结构不局限于人工设计的神经网络，也可以通过模型量化方法优化的神经网络，通过NAS(Neural Architecture Search，神经网络结构搜索)方法针对图像数据的视觉特性搜索的神经网络，等等，本实施例对此不加以限制。

以DSNet(A Flexible Detect to Summarize Network for VideoSummarization，一种灵活的视频摘要网络检测方法)为例，DSNet可将视频数据中的主要部分抽离出来生成片段，用这段片段概括视频数据的内容，摘要生成网络包括两种网络框架，分别为anchor-based method和anchor-free method。

在anchor-based method中，提供一个多尺度区间的proposals(候选框)进行密集抽样，提取其长期的具有时间依赖的特征，用于proposal location(候选地点)回归和重要性预测，这里分配了正负样本来用于生成摘要的正确性和完整性信息。

在anchor-free method中，直接预测视频数据中各帧图像数据和片段位置的重要性。

将摘要生成网络(含参数)加载至内存运行，此时，可将挑选封面的范围内的每帧图像数据分别输入摘要生成网络中，摘要生成网络按照其结构对每帧图像数据进行处理，输出该帧图像数据在视觉上表示重要程度的摘要值。

在一种设置挑选封面的范围的方式中，可以在界面上显示视频数据的时间轴，均匀抽取视频数据的图像数据，在该时间轴上相应的时间点显示该图像数据的缩略图，供用户参考，在该时间轴上加载成对的操作控件，用户可以拖动任一操作控件、成对的操作控件之间的时间设置为挑选封面的范围，在用户确认该挑选封面的范围时，可以按照该挑选封面的范围在视频数据中上添加窗口，该窗口与该挑选封面的范围重叠，从而将该窗口中的每帧图像数据输入摘要生成网络中进行处理，得到图像数据在视觉上表示重要程度的摘要值。

步骤103、根据业务对象对摘要值进行调整。

在实际应用中，视频数据的作用之一是推广业务对象，而以推广业务对象为目标，在重要程度上对视频数据的某些图像数据标注深层次的语义是一件较为繁琐的操作，因而缺乏跟业务对象相关的样本训练摘要生成网络，摘要生成网络大多是对图像数据标注以画面中的元素为主的浅层次的语义。

因此，在使用摘要生成网络对视频数据上至少部分图像数据计算的摘要值，可能会与推广业务对象的语义产生了一定的偏差。

那么，在本实施例中，可以在各帧图像数据的摘要值的基础上，依据推广业务对象的语义对各帧图像数据的摘要值进行微调，可以上调包含推广业务对象的语义的图像数据的摘要值，也可以下调未包含推广业务对象的语义的图像数据的摘要值，使得各帧图像数据的摘要值在整体上体现出推广业务对象的语义，从而符合视频数据用于推广业务对象的作用。

在本发明的一个实施例中，步骤103可以包括如下步骤：

步骤1031、在图像数据中识别人脸数据。

在某些情况中，厂商会邀请代言人去推广业务对象，因此，代言人本身就明确包含了推广业务对象的语义，因此，本实施例可以在每帧图像数据中检测代言人，从而依据代言人去调整该帧图像数据的摘要值。

在具体实现中，可以对每帧图像数据进行人脸检测，从而识别人脸数据。

其中，人脸检测也称为人脸关键点检测、定位或者人脸对齐，是指给定人脸数据，定位出人脸面部的关键区域位置，包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等等。

进一步而言，人脸检测包括如下至少一种方法：

1、利用人工提取特征，如haar特征，使用特征训练分类器，使用分类器进行人脸检测。

2、从通用的目标检测算法中继承人脸检测，例如，利用Faster R-CNN来检测人脸。

3、使用级联结构的卷积神经网络，例如，Cascade CNN(级联卷积神经网络)，MTCNN(Multi-task Cascaded Convolutional Networks，多任务卷积神经网络)。

考虑到简单标记人脸数据即可满足提取人像数据，因而人脸检测的算法的要求较低，允许存在噪音，可使用MTCNN等通用的卷积神经网络进行人脸检测。

步骤1032、若人脸数据属于为推广业务对象而配置的代言人，则在图像数据中基于人脸数据提取代言人的人像数据。

在本实施例中，厂商为推广业务对象而配置的代言人，可以预先在该代言人录制视频数据等场景中，采集该代言人的人脸数据，并将该代言人的人脸数据与在图像数据中采集的人脸数据进行比较。

如果该代言人的人脸数据与在图像数据中采集的至少一个人脸数据相同，则可以认为该图像数据中存在代言人。

进一步地，为了便于后续的上调，在图像数据中可以以人脸数据作为基点，在人脸数据的基础上进行扩展，从而代言人的人像数据(即人物在平面或立体上的形象)。

在一种扩展方式中，可以查询人脸数据的宽width与高Height。

一方面，对宽乘以第一系数，得到第一步长。

另一方面，对高乘以第二系数，得到第二步长，对高乘以第三系数，得到第三步长，其中，第三系数大于第二系数。

一般情况下，第一系数、第二系数与第三系数可以为默认的经验值，如，第一系数为1、第二系数为0.5、第三系数为9等，而考虑到对于不同类型的游戏，其设计人像数据的情况也有所不同，可能倾向写实、也可能倾向Q版，因而可以根据游戏的类型去制定第一系数、第二系数与第三系数，本实施例对此不加以限制。

那么，在图像数据中，沿水平方向(包括水平向左方向、水平向右方向)对人脸数据扩展第一步长、沿垂直向上方向对人脸数据扩展第二步长、沿垂直向下方向对人脸数据扩展第三步长，得到人像数据。

在本方式中，基于人脸数据大体定位人像数据，简化了截取人像数据的操作，从而提高了截取人像数据的效率。

步骤1033、依据代言人的人像数据上调图像数据对应的摘要值。

如果某帧图像数据中存在代言人的人像数据，表示该帧图像数据包含了推广业务对象的语义，可以参照代言人的人像数据适度上调该帧图像数据对应的摘要值，提高该帧图像数据作为封面的概率。

在一种上调方式中，考虑到代言人的数量可能为两个或两个以上、将同一个代言人的多个分镜在同一镜头中等情况，在同一帧图像数据中可能会出现多个代言人的人像数据，因此，可以统计代言人的人像数据在图像数据中出现的第一数量，将第一数量乘以预设的第一权重，得到第一幅度，即，第一幅度与第一数量正相关，第一数量越多，第一幅度越大，反之，第一数量越少，第一幅度越小，从而按照第一幅度上调图像数据对应的摘要值，即，在计算原始的摘要值与第一幅度之间的和值，作为新的摘要值，表示为Score’＝Score+αx，其中，Score’为新的摘要值，Score为原始的摘要值，α为第一权重，x为第一数量。

进一步而言，该原始的摘要值可以是应用本方式上调之前的摘要值，其可以是通过摘要生成网络生成的摘要值，也可以是应用其他方式调整之后的摘要值，本实施例对此不加以限制。

在另一种上调方式中，不同类型的游戏中具有不同的风格，这些风格通常在游戏中的建筑、服饰、道具等处体现，例如，故事情节发生在东方玄幻的RPG类游戏，该游戏中的角色穿着的服饰具有典型的古代东方风格，如上衣下裳制和衣裳连属制等，故事情节发生在西方玄幻类的RPG类游戏，该游戏中的角色穿着的服饰具有典型的古代西方风格，如厚重且蒙面的铠甲等，代言人在录制视频数据时，可能会根据剧情的安排，穿着与游戏中相同的服饰、道具，便于后期添加特效。

在本方式中，可以预先查询业务对象的类型，该类型可以在一定程度上反映业务对象中的服饰等元素。

而在人像数据中是包含代言人穿着的部分或全部服饰，此时，可以目标检测算法(如R-CNN(Region with CNN Feature，具有卷积神经网络特征的区域)等one-stage(一阶段)算法、如SSD(Single Shot MultiBox Detector，单步多框目标检测)等two-stage(二阶段)算法)、机器学习(如SVM(Support Vector Machine，支持向量机))等方式在各帧人像数据中检测代言人穿着的服饰的类别。

将业务对象的类型与服饰的类别进行比较，若业务对象的类型与服饰的类别匹配，即，代言人穿着的服装与在该类型的业务对象中的角色穿着的服装是相同的，则可以按照预设的幅度或比例上调该帧图像数据对应的摘要值。

在本发明的一个实施例中，步骤103还可以包括如下步骤：

步骤1034、若人脸数据属于为非代言人，则依据非代言人的人脸数据下调图像数据对应的摘要值。

因视频数据中剧情安排等因素，视频数据中可能会出现非代言人的情况，如果该代言人的人脸数据与在图像数据中采集的任一人脸数据均不相同，则可以确认该帧图像数据中存在非代言人，如果该帧图像数据作为视频数据的封面，非代言人会在一定程度上对代言人造成干扰，对该帧图像数据推广业务对象的语义进行营销，可以参照非代言人的人像数据适度下调该帧图像数据对应的摘要值，降低该帧图像数据作为封面的概率。

在一种上调方式中，考虑到非代言人的数量可能为两个或两个以上等情况，在同一帧图像数据中可能会出现多个代言人的人像数据，因此，可以统计统计非代言人的人像数据在图像数据中出现的第二数量，将第二数量乘以预设的第二权重，得到第二幅度，即，第二幅度与第二数量正相关，第二数量越多，第二幅度越大，反之，第二数量越少，第二幅度越小，从而按照第二幅度下调图像数据对应的摘要值，即，在计算原始的摘要值与第二幅度之间的差值，作为新的摘要值，表示为Score’＝Score-βy，其中，Score’为新的摘要值，Score为原始的摘要值，β为第二权重，y为第二数量。

进一步而言，该原始的摘要值可以是应用本方式下调之前的摘要值，其可以是通过摘要生成网络生成的摘要值，也可以是应用其他方式调整之后的摘要值，本实施例对此不加以限制。

步骤1035、若完成上调摘要值和/或下调摘要值，则确定完成调整摘要值。

如果遍历完所有上调的方式，对各帧图像数据完成上调摘要值和/或下调摘要值，则可以确定完成对各帧图像数据调整摘要值。

步骤104、若完成调整摘要值，则根据摘要值提取其中一帧图像数据，作为视频数据的封面。

如果完成对各帧图像数据调整摘要值，则可以以各帧图像数据的调整摘要值作为参考，从中选择一帧图像数据作为该视频数据的封面。

在一种方式中，可以将图像数据对应的摘要值进行比较，筛选出摘要值最高的图像数据，作为视频数据的封面。

需要说明的是，除了单独使用摘要值之外，还可以将摘要值与其他参数结合(如音频数据的能量的强度等)得到分数，将图像数据对应的分数进行比较，筛选出分数最高的图像数据，作为视频数据的封面，等等本实施例对此不加以限制。

实施例二

图3为本发明实施例二提供的一种视频封面的设置装置的结构示意图。

如图3所示，该装置包括：

视频数据获取模块301，用于获取内容为介绍业务对象的视频数据，所述视频数据中具有多帧图像数据；

摘要值计算模块302，用于对至少部分所述图像数据计算表示重要程度的摘要值；

摘要值调整模块303，用于根据所述业务对象对所述摘要值进行调整；

封面挑选模块304，用于若完成调整所述摘要值，则根据所述摘要值提取其中一帧所述图像数据，作为所述视频数据的封面。

在本发明的一个实施例中，还包括：

图像参数计算模块，用于对每帧所述图像数据计算在整体上表征的色彩值和/或模糊度；

图像数据滤除模块，用于按照所述色彩值和/或所述模糊度滤除与封面不适配的所述图像数据。

在本发明的一个实施例中，所述摘要值计算模块302包括：

摘要生成网络加载模块，用于加载摘要生成网络；

摘要生成网络调用模块，用于将至少部分所述图像数据输入所述摘要生成网络中进行处理，得到所述图像数据在视觉上表示重要程度的摘要值。

在本发明的一个实施例中，所述摘要生成网络调用模块包括：

窗口添加模块，用于在所述视频数据中上添加窗口；

窗口处理模块，用于将所述窗口中的每帧所述图像数据输入所述摘要生成网络中进行处理，得到所述图像数据在视觉上表示重要程度的摘要值。

在本发明的一个实施例中，所述摘要值调整模块303包括：

人脸数据识别模块，用于在所述图像数据中识别人脸数据；

人像数据提取模块，用于若所述人脸数据属于为推广所述业务对象而配置的代言人，则在所述图像数据中基于所述人脸数据提取所述代言人的人像数据；

摘要值上调模块，用于依据所述代言人的所述人像数据上调所述图像数据对应的所述摘要值。

在本发明的一个实施例中，所述人像数据提取模块包括：

人脸参数查询模块，用于查询所述人脸数据的宽与高；

第一步长计算模块，用于对所述宽乘以第一系数，得到第一步长；

第二步长计算模块，用于对所述高乘以第二系数，得到第二步长；

第三步长计算模块，用于对所述高乘以第三系数，得到第三步长，其中，所述第三系数大于所述第二系数；

人脸数据扩展模块，用于在所述图像数据中，沿水平方向对所述人脸数据扩展所述第一步长、沿垂直向上方向对所述人脸数据扩展所述第二步长、沿垂直向下方向对所述人脸数据扩展所述第三步长，得到人像数据。

在本发明实施例的一个示例中，所述摘要值上调模块包括：

第一数量统计模块，用于统计所述代言人的所述人像数据在所述图像数据中出现的第一数量；

第一幅度计算模块，用于将所述第一数量乘以预设的第一权重，得到第一幅度；

第一幅度上调模块，用于按照所述第一幅度上调所述图像数据对应的所述摘要值。

在本发明实施例的另一个示例中，所述摘要值上调模块包括：

类型查询模块，用于查询所述业务对象的类型；

类别检测模块，用于在所述人像数据中检测所述代言人穿着的服饰的类别；

匹配上调模块，用于若所述业务对象的类型与所述服饰的类别匹配，则上调所述图像数据对应的所述摘要值。

在本发明的另一个实施例中，所述摘要值调整模块303还包括：

摘要值下调模块，用于若所述人脸数据属于为非代言人，则依据所述非代言人的所述人脸数据下调所述图像数据对应的所述摘要值；

调整完成确定模块，用于若完成上调所述摘要值和/或下调所述摘要值，则确定完成调整所述摘要值。

在本发明实施例的一个示例中，所述摘要值下调模块包括：

第二数量统计模块，用于统计所述非代言人的所述人像数据在所述图像数据中出现的第二数量；

第二幅度计算模块，用于将所述第二数量乘以预设的第二权重，得到第二幅度；

第二幅度下调模块，用于按照所述第二幅度下调所述图像数据对应的所述摘要值。

在本发明的一个实施例中，所述封面挑选模块304包括：

摘要值比较模块，用于将所述图像数据对应的所述摘要值进行比较；

摘要值筛选模块，用于筛选出所述摘要值最高的所述图像数据，作为所述视频数据的封面。

本发明实施例所提供的视频封面的设置装置可执行本发明任意实施例所提供的视频封面的设置方法，具备执行视频封面的设置方法相应的功能模块和有益效果。

实施例三

图4示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，如视频封面的设置方法。

在一些实施例中，视频封面的设置方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的视频封面的设置方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频封面的设置方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

实施例四

本发明实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序在被处理器执行时实现如本发明任一实施例所提供的视频封面的设置方法。

计算机程序产品在实现的过程中，可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种视频封面的设置方法，其特征在于，包括：

对至少部分所述图像数据计算表示重要程度的摘要值；

根据所述业务对象对所述摘要值进行调整；

2.根据权利要求1所述的方法，其特征在于，还包括：

对每帧所述图像数据计算在整体上表征的色彩值和/或模糊度；

按照所述色彩值和/或所述模糊度滤除与封面不适配的所述图像数据。

3.根据权利要求1所述的方法，其特征在于，所述对至少部分所述图像数据计算表示重要程度的摘要值，包括：

加载摘要生成网络；

将至少部分所述图像数据输入所述摘要生成网络中进行处理，得到所述图像数据在视觉上表示重要程度的摘要值。

4.根据权利要求3所述的方法，其特征在于，所述将至少部分所述图像数据输入所述摘要生成网络中进行处理，得到所述图像数据在视觉上表示重要程度的摘要值，包括：

在所述视频数据中上添加窗口；

将所述窗口中的每帧所述图像数据输入所述摘要生成网络中进行处理，得到所述图像数据在视觉上表示重要程度的摘要值。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述根据所述业务对象对所述摘要值进行调整，包括：

在所述图像数据中识别人脸数据；

若所述人脸数据属于为推广所述业务对象而配置的代言人，则在所述图像数据中基于所述人脸数据提取所述代言人的人像数据；

依据所述代言人的所述人像数据上调所述图像数据对应的所述摘要值。

6.根据权利要求5所述的方法，其特征在于，所述在所述图像数据中基于所述人脸数据提取所述代言人的人像数据，包括：

查询所述人脸数据的宽与高；

对所述宽乘以第一系数，得到第一步长；

对所述高乘以第二系数，得到第二步长；

对所述高乘以第三系数，得到第三步长，其中，所述第三系数大于所述第二系数；

在所述图像数据中，沿水平方向对所述人脸数据扩展所述第一步长、沿垂直向上方向对所述人脸数据扩展所述第二步长、沿垂直向下方向对所述人脸数据扩展所述第三步长，得到人像数据。

7.根据权利要求5所述的方法，其特征在于，所述依据所述代言人的所述人像数据上调所述图像数据对应的所述摘要值，包括：

统计所述代言人的所述人像数据在所述图像数据中出现的第一数量；

将所述第一数量乘以预设的第一权重，得到第一幅度；

按照所述第一幅度上调所述图像数据对应的所述摘要值。

8.根据权利要求5所述的方法，其特征在于，所述依据所述代言人的所述人像数据上调所述图像数据对应的所述摘要值，包括：

查询所述业务对象的类型；

在所述人像数据中检测所述代言人穿着的服饰的类别；

若所述业务对象的类型与所述服饰的类别匹配，则上调所述图像数据对应的所述摘要值。

9.根据权利要求5所述的方法，其特征在于，所述根据所述业务对象对所述摘要值进行调整，还包括：

若所述人脸数据属于为非代言人，则依据所述非代言人的所述人脸数据下调所述图像数据对应的所述摘要值；

若完成上调所述摘要值和/或下调所述摘要值，则确定完成调整所述摘要值。

10.根据权利要求9所述的方法，其特征在于，所述依据所述非代言人的所述人脸数据下调所述图像数据对应的所述摘要值，包括：

统计所述非代言人的所述人像数据在所述图像数据中出现的第二数量；

将所述第二数量乘以预设的第二权重，得到第二幅度；

按照所述第二幅度下调所述图像数据对应的所述摘要值。

11.根据权利要求1-4、6-10中任一项所述的方法，其特征在于，所述根据所述摘要值提取其中一帧所述图像数据，作为所述视频数据的封面，包括：

将所述图像数据对应的所述摘要值进行比较；

筛选出所述摘要值最高的所述图像数据，作为所述视频数据的封面。

12.一种视频封面的设置装置，其特征在于，包括：

13.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的视频封面的设置方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行时实现权利要求1-11中任一项所述的视频封面的设置方法。