CN114845158A

CN114845158A - 视频封面的生成方法、视频发布方法及相关设备

Info

Publication number: CN114845158A
Application number: CN202210376326.9A
Authority: CN
Inventors: 程凯常; 吴晓东
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-08-02

Abstract

本申请实施例提供了一种视频封面的生成方法、视频发布方法及相关设备，涉及视频处理技术领域。该方法包括：基于获取到的视频数据进行以视频帧为单位的图像评估；基于图像评估的结果，从视频数据中筛选出第一视频帧；在检测到视频数据中包括具有人脸图像的视频帧时，结合人脸图像和第一视频帧生成展示于视频封面的第二视频帧。本申请实施例用于解决视频封面的展示效果不佳，无法突显出视频内容的问题，能够提高视频封面的处理效率和可靠性。

Description

视频封面的生成方法、视频发布方法及相关设备

技术领域

本申请涉及视频处理技术领域，具体而言，本申请涉及一种视频封面的生成方法、视频发布方法及相关设备。

背景技术

随着短视频应用的飞速发展，越来越多的用户加入到视频社区中来。视频平台上每天都有海量的视频被发布，如何在众多的视频当中脱颖而出，是业内的重要问题。视频封面作为快速展示视频内容的形式，视频封面的质量直接影响到视频的点击量和播放量。

但往往视频封面的展示效果不佳，无法突显出视频内容，导致难以吸引观众产生点击和播放行为。

发明内容

本申请实施例提供了一种视频封面的生成方法、视频发布方法及相关设备，用于解决视频封面的展示效果不佳，无法突显出视频内容的问题。

根据本申请实施例的一个方面，提供了一种视频封面的生成方法，包括：

基于获取到的视频数据进行以视频帧为单位的图像评估；

基于图像评估的结果，从所述视频数据中筛选出第一视频帧；

在检测到所述视频数据中包括具有人脸图像的视频帧时，结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧。

在一个可能的实现方式中，在所述基于获取到的视频数据进行以视频帧为单位的图像评估之前，还包括：

响应于封面生成指令，基于所述封面生成指令所携带的视频地址获取相应的视频数据。

在一个可能的实现方式中，在获取视频数据时，还同步获取用于展示在视频封面的文本信息；

所述结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧，包括：

基于预设的特效策略对所述文本信息进行处理，得到特效信息；

基于所述特效信息，将所述文本信息叠加在结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧中。

在一个可能的实现方式中，所述基于获取到的视频数据进行以视频帧为单位的图像评估，包括：

对所述视频数据进行以视频帧为单位的质量评估及美学评估，得到每个视频帧的质量评估值及美学评估值；

基于所述质量评估值与所述美学评估值进行加权计算，得到每个视频帧的视频评估值，以作为图像评估的结果；

所述基于图像评估的结果，从所述视频数据中筛选出第一视频帧，包括：

从所述视频数据中筛选出所述视频评估值最高的视频帧，以作为第一视频帧。

在一个可能的实现方式中，对所述视频数据进行以视频帧为单位的质量评估，得到每个所述视频帧的质量评估值，包括：

获取每个视频帧的RGB数据，并基于所述RGB数据计算每个视频帧的亮度，以获得与该亮度对应的亮度分值；

基于拉普拉斯算子计算每个视频帧的清晰度；

将所述视频帧转化为灰度图，将每个预设灰度区间按落在其中的像素数量从大到小进行排序，获取排序在前a％的预设灰度区间所包含的像素总数，以便将所述像素总数在所述灰度图的像素总量中的比例作为每个视频帧的颜色均匀度；

对所述亮度分值、所述清晰度及所述颜色均匀度进行加权计算，得到每个视频帧的质量评估值。

在一个可能的实现方式中，对所述视频数据进行以视频帧为单位的美学评估，得到每个视频帧的美学评估值，包括：

获取美学质量评估数据集；

基于该美学质量评估数据集对预设的神经网络模型进行训练，得到美学评分模型；

将所述视频数据输入到所述美学评分模型，以进行针对每个视频帧的美学评估，输出每个视频帧的美学评估值。

在一个可能的实现方式中，所述在检测到所述视频数据中包括具有人脸图像的视频帧时，结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧，包括：

在检测到所述视频数据中包括具有人脸图像的视频帧时，对所述人脸图像中的人脸表情进行评估，得到人脸表情评估值；

提取人脸表情评估值最高的人脸图像中的人像区域，以该人像区域作为人像掩膜；

将所述人像掩膜布局在所述第一视频帧中，以生成展示于视频封面的第二视频帧。

在一个可能的实现方式中，所述对所述人脸图像中的人脸表情进行评估，得到人脸表情评估值，包括：

获取所述人脸图像中预设的人脸关键点的位置信息；

基于针对眼睛区域以及嘴部区域的人脸关键点的位置信息，计算眼睛和嘴巴的张开程度；

基于所述眼睛和嘴巴的张开程度，确定每个人脸图像的人脸表情评估值。

在一个可能的实现方式中，所述将所述人像掩膜布局在所述第一视频帧中，以生成展示于视频封面的第二视频帧，包括：

按预设尺寸阈值对所述人像掩膜进行尺寸调整，得到第一人像掩膜；

对所述第一人像掩膜进行描边处理，得到第二人像掩膜；

响应于人像展示指令，基于该人像展示指令所指示的人像展示模板，将所述第二人像掩膜布局在所述第一视频帧中，以生成展示于视频封面的第二视频帧；

其中，所述人像展示指令由客户端响应针对人像展示模板的选取操作后发送。

在一个可能的实现方式中，所述基于预设的特效策略对所述文本信息进行处理，得到特效信息，基于所述特效信息，将所述文本信息叠加在结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧中，包括：

对所述文本信息进行分词，并以分词结果作为最小不可拆分单元对所述文本信息进行分行，得到展示文本信息；

响应于特效策略配置指令，基于该特效策略配置指令所指示的特效策略，对所述展示文本信息进行特效处理，得到包含文字特效图像的特效信息；其中，所述特效策略配置指令由所述客户端响应针对特效策略的选取操作后发送；

将用于表征所述展示文本信息的文字特效图像布局在所述第二视频帧的文字展示区域中，所述文字展示区域由被选取的人像展示模板确定。

在一个可能的实现方式中，所述特效策略包括具有倾斜文字效果的第一特效策略以及具有阴影文字效果的第二特效策略；所述基于该特效策略配置指令所指示的特效策略，对所述展示文本信息进行特效处理，得到包含文字特效图像的特效信息，包括：

针对所述第一特效策略，对由所述展示文本信息经图形化处理而成的文字图像进行图像仿射变换，得到文本呈倾斜效果的文字特效图像；或，

针对所述第二特效策略，在阴影图层中以预设的阴影字体颜色对所述展示文本信息进行绘制，并在置于所述阴影图层上方的文字图层中以预设的正文字体颜色对所述展示文本信息进行绘制，以获得呈阴影文字效果的文字特效图像。

根据本申请实施例的另一个方面，提供了一种视频发布方法，包括：

响应于视频发布操作，将与所述视频发布操作相应的视频数据上传至视频分发服务器，通过所述视频分发服务器发布所述视频数据；

其中，所述视频分发服务器在发布所述视频数据时，请求封面处理服务器执行上述实施例所述的方法，以获取展示于视频封面的第二视频帧，并基于所述第二视频帧发布所述视频数据。

根据本申请实施例的另一个方面，提供了一种视频封面处理装置，包括：

图像评估模块，用于基于获取到的视频数据进行以视频帧为单位的图像评估；

第一视频帧确定模块，用于基于图像评估的结果，从所述视频数据中筛选出第一视频帧；

第二视频帧生成模块，用于在检测到所述视频数据中包括具有人脸图像的视频帧时，结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧。

根据本申请实施例的另一个方面，提供了一种视频发布装置，包括：

视频发布模块，用于响应于视频发布操作，将与所述视频发布操作相应的视频数据上传至视频分发服务器，通过所述视频分发服务器发布所述视频数据；

根据本申请实施例的另一个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现上述实施例所述方法的步骤。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例所述方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例中，通过基于获取到的视频数据进行以视频帧为单位的图像评估，继而基于图像评估的结果，从所述视频数据中筛选出第一视频帧，以选取优质的视频帧作为视频封面的封面背景，提高了视频封面的质量，从而在检测到所述视频数据中包括具有人脸图像的视频帧时，结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧，这样将第二视频帧作为视频封面，提高了视频封面的话题性，使该视频封面具有话题性和画面清晰的特点，以突显出视频内容，提升视频封面的展示效果，从而利于提高视频的点击量。同时，本实施例能够自动提取相适配的视频帧以及人脸图像生成视频封面，使提高了视频封面与视频内容的切合度，能够提高视频封面的处理效率和可靠性，实现自动高效地发布视频。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的计算机系统架构示意图；

图2为本申请实施例提供的客户端、视频分发服务器与封面处理服务器之间的数据交互的示意图；

图3为本申请实施例提供的一种视频封面的生成方法的流程示意图；

图4为本申请一个示例性实施例提供的人脸关键点的示意图；

图5为本申请一个示例性实施例提供的人像掩膜描边处理的示意图；

图6为本申请实施例提供的人像展示模板的示例图；

图7为本申请实施例提供的文字特效图像的示例图；

图8为本申请一个示例性实施例提供的文字特效图像布局于第二视频帧的示意图；

图9为本申请实施例提供的视频封面的示例图；

图10为本申请实施例提供的一种视频发布方法的流程示意图；

图11为本申请实施例提供的一种视频封面的生成装置的结构示意图；

图12为本申请实施例提供的一种视频发布装置的结构示意图；

图13为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1为本申请实施例提供的计算机系统架构示意图。该计算机系统1包括客户端101、视频分发服务器102和封面处理服务器103，其中，客户端101、视频分发服务器102和封面处理服务器103之间通过通信网络连接，且客户端101与视频分发服务器102，以及视频分发服务器102与封面处理服务器103之间均可以通过有线或无线通信方式进行直接或间接地连接，本申请对此不做限制。

客户端101可以为安装有应用程序或运行网站、小程序的任意终端设备，诸如智能手机、平板电脑、笔记本电脑、台式计算机、智能可穿戴式设备等，本申请实施例并不对此进行限定。关于硬件结构，上述客户端101包括显示屏、存储器、处理器及输入设备，但不限于此。示例性的，上述应用程序是多媒体平台的终端侧应用程序，以及上述网站是承载多媒体平台的终端侧网站。作为举例，上述多媒体平台包括视频类服务平台和生活类服务平台，该视频类服务平台如影音类服务平台、直播类服务平台及短视频类服务平台等，本申请对多媒体平台的类型不加以限定。

视频分发服务器102和封面处理服务器103均可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据和人工智能平台等基础云计算服务的云服务器。可选的，视频分发服务器102和封面处理服务器103还可以布局在同一个服务器，该服务器均承载有实现该视频分发服务器102和该封面处理服务器103的功能的程序模块。

具体的，图2为本申请实施例提供的客户端101、视频分发服务器102与封面处理服务器103之间的数据交互的示意图，在用户需发布视频时，用户通过客户端101上传视频以及展示在视频封面的文本信息，客户端101将获取的上述信息发送到视频分发服务器102。继而，视频分发服务器102向封面处理服务器103分配视频的视频编号和URL地址，使得封面处理服务器103执行AI封面推荐及加工服务，具体包括根据接收到的视频数据生成由经图像评估为优质的第一视频帧与人脸图像生成展示于视频封面的第二视频帧。封面处理服务器103将加工后的视频封面(即包含第二视频帧的视频封面)返回视频分发服务器102，使得视频分发服务器102基于该加工后的视频封面对该视频数据进行处理，以对处理后的视频数据做入库处理，并发布视频数据。

可选的，视频分发服务器102在获得展示由第二视频帧组成的视频封面的视频数据后，下发到该客户端101以及其他的客户端，使得在各客户端101上能够展示该视频封面，便于用户基于该视频封面直观了解视频的内容，以及所展示的视频封面具有话题性和高质量的特点，提升了视频封面的展示效果，以及利于提高用户的关注度。

图3为本申请实施例提供的一种视频封面的生成方法的流程示意图，该视频封面的生成方法用于如图1所示的封面处理服务器103为例进行说明，该方法包括步骤S201至S203。

S201、基于获取到的视频数据进行以视频帧为单位的图像评估。

S202、基于图像评估的结果，从所述视频数据中筛选出第一视频帧。

在本申请中，视频封面是指展示视频大概内容的图像，可以是静态图像，也可以是动态图像。客户端接收用户输入的视频数据，将该视频数据发送给视频分发服务器，使得视频分发服务器提取原始的视频封面，使得基于该原始的视频封面确定视频封面尺寸，以将包含视频帧、视频封面尺寸、视频编号及URL地址的视频数据发送到封面处理服务器，以便封面处理服务器基于视频数据生成符合该视频封面尺寸的视频封面，提高了视频封面的处理效率。

在一些实施例中，在所述基于获取到的视频数据进行以视频帧为单位的图像评估之前，还包括：

在本申请中，视频分发服务器请求封面处理服务器执行生成新的视频封面的操作步骤。因此，封面处理服务器响应于视频分发服务器发送的封面生成指令，获取来自视频分发服务器的视频数据。进一步，封面处理服务器对该视频数据进行解码，得到视频帧。

可选的，视频分发服务器获取多个客户端上传的视频数据，并从大量的视频数据中获取每个视频的视频编号和URL地址，以便按当前处理需求进行批量处理，形成视频处理队列，使得按该队列将当前待处理的视频数据发送到封面处理服务器。封面处理服务器基于获取到的URL地址下载视频数据，并对该视频数据进行逐帧解码，得到待处理的视频帧。因此，通过批量处理视频数据，能够缓解封面处理服务器的处理压力，不影响该服务器的处理性能，并保证了较高的执行效率。

需要说明的是，图像评估包括针对颜色、清晰度、质感、曝光度、亮度、对焦等方面的评估，本申请对此不做限定。因此，本申请通过针对每个视频帧的图像评估的结果，选取出满足展示需求的视频帧(如优质视频帧)作为展示于视频封面的封面背景，利于提升视频封面的质量，并更切合展示需求。同时，本申请以视频中的一个视频帧生成视频封面，便于快速直观地了解视频的内容，并提高了视频封面与视频内容的切合度。

在一些实施例中，所述基于获取到的视频数据进行以视频帧为单位的图像评估，包括：

在本实施例中，通过针对视频帧的图像质量评估和美学评估，从大量的视频帧中筛选出画面清晰和符合大众审美的视频帧，以作为用于展示视频封面的封面背景的第一视频帧，提高了视频封面质量，从而利于提高用户的点击量和播放量。

S203、在检测到所述视频数据中包括具有人脸图像的视频帧时，结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧。

需要说明的是，本申请检测视频数据中的人脸图像，以将人脸图像叠加在第一视频帧上，丰富了所得到的展示于视频封面的第二视频帧的展示内容，提高了视频封面的趣味性和展示效果。因此，本申请能够自动生成由优质视频帧和人脸图像合成的第二视频帧，以展示于视频封面，使得针对视频封面的自动化处理，提高了处理效率，可适用于处理大量视频数据的场景。并且，该视频封面的生成方法适用于多种类的视频，如游戏类视频和非游戏类视频，具有通用性好的特点。

本申请实施例提供的视频封面的生成方法，通过基于获取到的视频数据进行以视频帧为单位的图像评估，继而基于图像评估的结果，从所述视频数据中筛选出第一视频帧，以选取优质的视频帧作为视频封面的封面背景，提高了视频封面的质量，从而在检测到所述视频数据中包括具有人脸图像的视频帧时，结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧，这样将第二视频帧作为视频封面，提高了视频封面的话题性，使该视频封面具有话题性和画面清晰的特点，以突显出视频内容，提升视频封面的展示效果，从而利于提高视频的点击量。同时，本实施例能够自动提取相适配的视频帧以及人脸图像生成视频封面，能够提高视频封面的处理效率和可靠性。

在一些实施例中，针对视频数据的质量评估，涉及亮度、清晰度和颜色均匀度的三个维度，但不限于此。对所述视频数据进行以视频帧为单位的质量评估，得到每个所述视频帧的质量评估值，包括：

基于拉普拉斯算子计算每个视频帧的清晰度；

示例性的，针对视频帧的亮度，RGB数据表示为图像的红(R)、绿(G)、蓝(B)三个通道的像素值，并根据以下公式(1)计算每个视频帧的亮度：

L＝mean(0.2126*R+0.7152*G+0.0722*B)

……(1)

其中，公式(1)中，mean()表示取平均值，R为红(R)通道的像素值，G为绿(G)通道的像素值，B为蓝(B)通道的像素值，L为亮度。可选的，以上公式中RGB数据的计算系数并不限定。进一步，针对亮度的数值，获取亮度分值，示例为以L＝128为最高得分1.0，L＝0和L＝255为最低得分0，呈现为L数值向两端逐渐递减，并对亮度做规范化得到亮度分值。

示例性的，针对视频帧的清晰度，使用拉普拉斯算子计算视频帧图像的拉普拉斯梯度的方差，后对该方差取算术平方根得到清晰度。继而，对该清晰度进行规范化，例如以该清晰度除以128的规范化处理，以获得每个视频帧图像的清晰度。

示例性的，针对视频帧的颜色均匀度，将视频帧转化为灰度图，将灰度值在[0,255]灰度范围内平分为256个预设灰度区间，分别统计灰度值落在每个区间的像素数量，得到灰度值分布式直方图。继而，对该灰度值分布式直方图中每个区间的像素数量按从大到小进行排序，统计排序在前a％(如5％)的像素总数，获取该像素总数在所述灰度图的像素总量中的比例，以此作为视频帧的颜色均匀度。

进一步，可选的，针对视频帧的质量评估值，对每个视频帧的亮度分值、清晰度及颜色均匀度进行加权计算，得到每个视频帧的质量评估值，这样，通过考虑到亮度分值、清晰度及颜色均匀度的重要程度，灵活设置加权系数，简化了质量评估的计算量，能够提高处理效率。

示例性的，可以采用以下公式(2)计算质量评估值：

s_Quality＝s_L*0.3+s_S*0.5+s_U*0.2

……(2)

其中，公式(2)中，s_Quality为质量评估值，s_L为亮度分值，s_S为清晰度，s_U为颜色均匀度。

在一些实施例中，对所述视频数据进行以视频帧为单位的美学评估，得到每个视频帧的美学评估值，包括：

获取美学质量评估数据集；

在本实施例中，针对视频数据的美学评估，该美学质量评估数据集具有美学质量特征数据、图像特征及评估规则等数据，以采用美学质量评估数据集对回归神经网络进行训练，以便使用训练得到的美学评分模型对视频帧进行美学评估，利用神经网络模型的高拟合度增强了图像美学评估的客观性，提升了所获得的美学评估值的稳定性和准确性，使得视频封面符合潮流趋势和大众审核的要求。

示例性的，基于公开的美学质量评估数据集AVA Dataset对以ResNet50作为主干网络的模型进行训练，得到美学评分模型。其中，该美学评分模型中所设置的打分范围为0-1.0，美学评估值越高表示美学质量越高。

在一些实施例中，所述在检测到所述视频数据中包括具有人脸图像的视频帧时，结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧，包括：

在本申请中，第二视频帧显示有人脸图像，能够准确体检视频内容，以及利于吸引用户的关注并产生点击行为。可选的，选取具有优质的人脸表情的人脸图像，并提取该人脸图像对应的人像掩膜以显示于视频封面，提高了视频的宣传效果。

基于上述实施例，在一些实施例中，所述对所述人脸图像中的人脸表情进行评估，得到人脸表情评估值，包括：

获取所述人脸图像中预设的人脸关键点的位置信息；

在本实施例中，检测视频数据中的人脸图像，并基于检测到的人脸图像中人脸关键点的位置信息进行人脸表情的评估。在一示例性实施例中，参见图4为本申请一个示例性实施例提供的人脸关键点的示意图，针对开源的PFLD:A Practical Facial LandmarkDetector模型，将该模型的人脸关键点的数量设为106，并该人脸关键点紧凑分布于人脸特定部位，如轮廓区域、眼睛区域、嘴部区域、鼻子区域等，使得训练上述模型，以检测出视频数据中的人脸图像及其人脸关键点坐标。

进一步，通过人脸关键点的位置信息进行人脸表情评估，本实施例针对眼睛区域和嘴部区域的关键点位置信息来评估人脸表情，使得通过具有与表情相关联的人脸区域来评估表情，提高了表情评估的准确度，从而提高了人像掩膜的展示效果。

示例性的，针对眼睛和嘴巴的张开程度，其具体计算方法如下公式(3)所示：

s_Face＝(norm(P72,P73)+norm(P75,P76)+norm(P87,P93))/H

……(3)

其中，公式(3)中，norm()表示计算两点之间的欧式距离，如图4所示，P72和P73分别表示眼睛区域中左眼的上眼皮和下眼皮的中心位置的坐标信息，P75和P76分别表示眼睛区域中右眼的上眼皮和下眼皮的中心位置的坐标信息，P87和P93分别表示嘴部区域中上嘴唇和下嘴唇的中心位置的坐标信息，H表示整个人脸区域的高度。

进一步，本实施例按照上述流程对每个人脸图像进行计算，得到针对人脸图像的眼睛和嘴巴的张开程度，并以眼睛和嘴巴的张开程度越大表示得分值越高的评估规则，获得每个人脸图像的人脸表情评估值。更进一步，筛选出人脸表情评估值最高的人脸图像，以此作为后续提取人像掩膜的目标图像。因此，本实施例通过筛选出人脸表情评估值最高的人脸图像用以提取人像掩膜，提高了人像掩膜的提取效率，并且提高了视频封面的展示效果。

基于上述实施例，在一些实施例中，所述将所述人像掩膜布局在所述第一视频帧中，以生成展示于视频封面的第二视频帧，包括：

对所述第一人像掩膜进行描边处理，得到第二人像掩膜；

在本申请中，第一视频帧包括用于展示人像掩膜的人像区域，该人像区域的位置与人像展示模板一一对应，并且预先设定该人像区域的尺寸范围，使得在对人像掩膜的尺寸调整(如等比例拉伸或缩放)后，该第一人像掩膜的尺寸不超过该人像区域的尺寸范围，实现该人像掩膜的灵活调整。例如，人像区域的高度为0.8H，H为第一视频帧的高度。为进一步突显出人像掩膜，本申请对第一人像掩膜的轮廓添加描边，以提升了该人像掩膜的展示效果。具体的，示例性的，首次对该第一人像掩膜做闭运算，将该第一人像掩膜扩充6个像素宽度，扩充的范围设置为白色像素值(R＝255,G＝255,B＝255)，再次对该第一人像掩膜做闭运算，扩充3个像素宽度，此次扩充的范围设置为黑色像素值(R＝0,G＝0,B＝0)。更具体的，图5为本申请一个示例性实施例提供的人像掩膜描边处理的示意图，对视频中的主播进行人像抠图后得到主播人像掩膜，针对该主播人像掩膜的首次描边处理，描边部分的线条颜色设为#FFFFFF，线条宽度为6px，针对该主播人像掩膜的第二次描边处理，描边部分的线条颜色设为#000000，线条宽度为9px，这样，经描边处理的主播人像掩膜显示于目标背景图像，提升了视频中主播人像的展示效果，利于提高关注度。

可选的，封面处理服务器设有多个人像展示模板，将多个人像展示模板发送给客户端，可通过视频分发服务器发送或直接发送，在此不做限定。其中，示例性的，图6为本申请实施例提供的人像展示模板的示例图，图6(a)为将人像掩膜(即人像区域)布局在图像的左下角，左边对齐；图6(b)为将人像掩膜(即人像区域)布局在图像的右下角，右边对齐。客户端在操作界面上显示上述多个人像展示模板，使得获取用户针对任一人像展示模板的选取操作，并在响应该选取操作后生成人像展示指令，将该指令返回封面处理服务器，满足用户的个性化需求。进一步，封面处理服务器根据被选取的人像展示模板，将从视频中提取到的人像掩膜展示在视频封面的封面背景中，以生成展示于视频封面的第二视频帧，例如，如图5所示，经描边处理的主播人像掩膜布局在图像的左下角。

在一些实施例中，在获取视频数据时，还同步获取用于展示在视频封面的文本信息；

需要说明的是，客户端在向视频分发服务器上传视频数据的同时，还同步发送用户所输入的用于展示在视频封面的文本信息，使得视频分发服务器将视频数据与该文本信息一并发送给封面处理服务器，以请求封面处理服务器生成具有人脸图像、第一视频帧以及文本信息的第二视频帧，该第二视频帧展示于视频封面。

在一些实施例中，所述基于预设的特效策略对所述文本信息进行处理，得到特效信息，基于所述特效信息，将所述文本信息叠加在结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧中，包括：

在本实施例中，使用开源的jieba工具对用户所输入的文本信息进行分词，然后以分词结果作为最小不可拆分单元按该文本信息的先后顺序进行拼接分词，并且按每一行文字的字数要求及行数要求(如每一行的字数不超过10个，若分行超过3行则在第三行的最后加上省略号，保证展示文本信息最多3行)对该文本信息进行分行，得到展示于视频封面的展示文本信息，以保证每一行文字的逻辑连续性。

可选的，封面处理服务器设有多个针对字体、颜色、阴影、描边等设计效果的特效策略，将多个特效策略发送给客户端。客户端在操作界面上显示上述多个特效策略，使得获取用户针对任一特效策略的选取操作，并在响应该选取操作后生成特效策略配置指令，将该指令返回封面处理服务器，满足用户的个性化需求。进一步，封面处理服务器根据被选取的特效策略对展示文本信息进行特效处理，得到包含文字特效图像的特效信息，便于在视频封面上更为直观、明显地展示文字内容。

示例性的，图7为本申请实施例提供的文字特效图像的示例图，图7(a)为针对“这波单杀面具戴不够三秒啊FFD”的展示文本信息，其特效策略包括字体为字制区喜脉体(倾斜)，最大字号62px，字体颜色为FFFFFF，第一次描边的线条颜色为#313EE5，线条宽度为6px，第二次描边的线条颜色为#E9F0FF，线条宽度为10px。图7(b)为针对“这波单杀面具戴不够三秒啊”的展示文本信息，其特效策略包括字体为汉仪黑方(倾斜)，最大字号62px，顶层文字的字体颜色为FFFFFF，描边的线条颜色为#000000，线条宽度为4px，底层文字的字体颜色为F5CB08，描边的线条颜色为#F5CB08，线条宽度为6px，便宜为x+2、y+2。图7(c)为针对“这波单杀面具戴不够三秒啊”的展示文本信息，其特效策略包括字体为汉仪铸字木头人(倾斜)，最大字号72px，字体颜色为FFE012，第一次描边的线条颜色为#000000，线条宽度为4px，第二次描边的线条颜色为#FFFFFF，线条宽度为10px，旋转角度为-7度。图7(d)为针对“这波单杀面具戴不够三秒啊FFD”的展示文本信息，其特效策略包括字体为字制区喜脉体(倾斜)，最大字号62px，字体颜色为F02308，第一次描边的线条颜色为#FFFFFF，线条宽度为6px，第二次描边的线条颜色为#5C0D00，线条宽度为10px，旋转角度为-7度。

进一步，第二视频帧包括用于展示文字的特效信息的文字展示区域，该文字展示区域的位置与被选取的人像展示模板所表征的人像区域相关联，并且，预先设定该文字展示区域的尺寸范围，使得在该文字展示区域中自动化调整特效信息的尺寸大小，以保证该特效信息的展示效果的最大化。示例性的，图8为本申请一个示例性实施例提供的文字特效图像布局于第二视频帧的示意图，图8(a)为将特效信息(包括文字特效图像)布局在图像的右方，与图6(a)中的人像掩膜展示在图像的左下角相对应，其文字展示区域的上边距离图像上边0.3H，下边距离图像底边0.1H，左边距离图像左边0.4W，右边距离图像右边0.05W；图8(b)为将特效信息(包括文字特效图像)布局在图像的左方，与图6(b)中的人像掩膜展示在图像的右下角相对应，其文字展示区域的上边距离图像上边0.3H，下边距离图像底边0.1H，左边距离图像左边0.05W，右边距离图像右边0.4W，其中，H为所在图像的高度，W为宽度。

基于上述实施例，在一些实施例中，所述特效策略包括具有倾斜文字效果的第一特效策略以及具有阴影文字效果的第二特效策略；所述基于该特效策略配置指令所指示的特效策略，对所述展示文本信息进行特效处理，得到包含文字特效图像的特效信息，包括：

示例性的，针对图7(c)和图7(d)的具有倾斜文字效果的第一特效策略，具体实现方式为在全黑背景上写入水平效果的展示文本信息，并对该展示文字信息进行图形化处理，得到相应的文字图像，然后对该文字图像使用OpenCV的warpAffine()函数做warp变换，得到文本呈倾斜效果的文字特效图像，最后再将该文字特效图像叠加到第二视频帧上。针对图7(b)的具有阴影文字效果的第二特效策略，具体实现方式为在第二视频帧的文字展示区域上的阴影图层以阴影字体颜色绘制展示文本信息，在该阴影图层之上的文字图层以正文字体颜色绘制展示文本信息，即实现将具有阴影文字效果的特效信息叠加到第二视频帧。因此，本实施例针对不同的文字特效策略对展示文字信息进行特效处理，增加了文字特效处理的多样性和灵活性。

在一示例性的实施例中，图9为本申请实施例提供的视频封面的示例图，封面处理服务器从视频中选取第一视频帧，以生成在该第一视频帧上叠加主播人像掩膜以及文本信息(如图9a的“边路德华在线被单杀”、图9b的“飞车换位直接起飞”及图9c的“666”)的第二视频帧，该第二视频帧展示于视频封面，因此，本申请同时适用于游戏类视频和非游戏类视频，通用性较好。

图10为本申请实施例提供的一种视频发布方法的流程示意图，该视频发布方法用于如图1所示的客户端101为例进行说明，该方法包括步骤S301。

S301、响应于视频发布操作，将与所述视频发布操作相应的视频数据上传至视频分发服务器，通过所述视频分发服务器发布所述视频数据；

在本实施例中，客户端响应于用户触发的视频发布操作，并接收用户输入的视频数据，将该视频数据发送给视频分发服务器，使得视频分发服务器将该视频数据发送到封面处理服务器，以便封面处理服务器基于获取到的视频数据进行以视频帧为单位的图像评估，继而基于图像评估的结果，从所述视频数据中筛选出第一视频帧，从而在检测到所述视频数据中包括具有人脸图像的视频帧时，结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧。进一步，封面处理服务器将所生成的第二视频帧返回视频分发服务器，以便视频分发服务器基于所述第二视频帧发布所述视频数据。这样，所发布的视频封面具有话题性和高质量的特点，能够通过该视频封面直观地展示视频内容，同时自动提取相适配的视频帧以及人脸图像生成视频封面，使提高了视频封面与视频内容的切合度，实现自动高效地发布视频。

图11为本申请实施例提供的一种视频封面的生成装置的结构示意图，视频封面处理装置400，包括：

图像评估模块401，用于基于获取到的视频数据进行以视频帧为单位的图像评估；

第一视频帧确定模块402，用于基于图像评估的结果，从所述视频数据中筛选出第一视频帧；

第二视频帧生成模块403，用于在检测到所述视频数据中包括具有人脸图像的视频帧时，结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧。

在一些实施例中，视频封面处理装置400包括：

视频数据获取单元，用于响应于封面生成指令，基于所述封面生成指令所携带的视频地址获取相应的视频数据。

在一些实施例中，在获取视频数据时，还同步获取用于展示在视频封面的文本信息；图像评估模块401包括：

特效处理单元，用于基于预设的特效策略对所述文本信息进行处理，得到特效信息；

文字特效叠加单元，用于基于所述特效信息，将所述文本信息叠加在结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧中。

在一些实施例中，图像评估模块401包括：

评估单元，用于对所述视频数据进行以视频帧为单位的质量评估及美学评估，得到每个视频帧的质量评估值及美学评估值；

加权排序单元，用于基于所述质量评估值与所述美学评估值进行加权计算，得到每个视频帧的视频评估值，以作为图像评估的结果。

在一些实施例中，第一视频帧确定模块402包括：

第一视频帧筛选单元，用于从所述视频数据中筛选出所述视频评估值最高的视频帧，以作为第一视频帧。

在一些实施例中，评估单元包括：

亮度计算单元，用于获取每个视频帧的RGB数据，并基于所述RGB数据计算每个视频帧的亮度，以获得与该亮度对应的亮度分值；

清晰度计算单元，用于基于拉普拉斯算子计算每个视频帧的清晰度；

颜色均匀度计算单元，用于将所述视频帧转化为灰度图，将每个预设灰度区间按落在其中的像素数量从大到小进行排序，获取排序在前a％的预设灰度区间所包含的像素总数，以便将所述像素总数在所述灰度图的像素总量中的比例作为每个视频帧的颜色均匀度；

质量评估单元，用于对所述亮度分值、所述清晰度及所述颜色均匀度进行加权计算，得到每个视频帧的质量评估值。

在一些实施例中，评估单元包括：

美学质量评估数据集获取单元，用于获取美学质量评估数据集；

美学评分模型训练单元，用于基于该美学质量评估数据集对预设的神经网络模型进行训练，得到美学评分模型；

美学评估单元，用于将所述视频数据输入到所述美学评分模型，以进行针对每个视频帧的美学评估，输出每个视频帧的美学评估值。

在一些实施例中，第二视频帧生成模块403包括：

人脸表情评估单元，用于在检测到所述视频数据中包括具有人脸图像的视频帧时，对所述人脸图像中的人脸表情进行评估，得到人脸表情评估值；

人像掩膜提取单元，用于提取人脸表情评估值最高的人脸图像中的人像区域，以该人像区域作为人像掩膜；

人像掩膜布局单元，用于将所述人像掩膜布局在所述第一视频帧中，以生成展示于视频封面的第二视频帧。

在一些实施例中，人脸表情评估单元包括：

人脸关键点位置获取单元，用于获取所述人脸图像中预设的人脸关键点的位置信息；

人脸关键点计算单元，用于基于针对眼睛区域以及嘴部区域的人脸关键点的位置信息，计算眼睛和嘴巴的张开程度；

人脸表情评估值计算单元，用于基于所述眼睛和嘴巴的张开程度，确定每个人脸图像的人脸表情评估值。

在一些实施例中，人像掩膜布局单元包括：

尺寸调整单元，用于按预设尺寸阈值对所述人像掩膜进行尺寸调整，得到第一人像掩膜；

描边处理单元，用于对所述第一人像掩膜进行描边处理，得到第二人像掩膜；

人像展示指令响应单元，用于响应于人像展示指令，基于该人像展示指令所指示的人像展示模板，将所述第二人像掩膜布局在所述第一视频帧中，以生成展示于视频封面的第二视频帧；

在一些实施例中，特效处理单元包括：

文本处理单元，用于对所述文本信息进行分词，并以分词结果作为最小不可拆分单元对所述文本信息进行分行，得到展示文本信息；

特效策略执行单元，用于响应于特效策略配置指令，基于该特效策略配置指令所指示的特效策略，对所述展示文本信息进行特效处理，得到包含文字特效图像的特效信息；其中，所述特效策略配置指令由所述客户端响应针对特效策略的选取操作后发送。

在一些实施例中，文字特效叠加单元包括：

文字特效布局单元，用于将用于表征所述展示文本信息的文字特效图像布局在所述第二视频帧的文字展示区域中，所述文字展示区域由被选取的人像展示模板确定。

在一些实施例中，特效策略执行单元包括：

第一特效策略单元，用于针对所述第一特效策略，对由所述展示文本信息经图形化处理而成的文字图像进行图像仿射变换，得到文本呈倾斜效果的文字特效图像；或，

第二特效策略单元，用于针对所述第二特效策略，在阴影图层中以预设的阴影字体颜色对所述展示文本信息进行绘制，并在置于所述阴影图层上方的文字图层中以预设的正文字体颜色对所述展示文本信息进行绘制，以获得呈阴影文字效果的文字特效图像。

图12为本申请实施例提供的一种视频发布装置的结构示意图，该视频发布装置500，包括：

视频发布模块501，用于响应于视频发布操作，将与所述视频发布操作相应的视频数据上传至视频分发服务器，通过所述视频分发服务器发布所述视频数据；

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现视频封面的生成方法或视频发布方法的步骤。

在一个可选实施例中提供了一种电子设备，如图13所示，图13所示的电子设备600包括：处理器601和存储器603。其中，处理器601和存储器603相连，如通过总线602相连。可选地，电子设备600还可以包括收发器604，收发器604可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器604不限于一个，该电子设备600的结构并不构成对本申请实施例的限定。

处理器601可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器601也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线602可包括一通路，在上述组件之间传送信息。总线602可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线602可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器603可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器603用于存储执行本申请实施例的计算机程序，并由处理器601来控制执行。处理器601用于执行存储器603中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种视频封面的生成方法，其特征在于，包括：

基于获取到的视频数据进行以视频帧为单位的图像评估；

2.根据权利要求1所述的方法，其特征在于，在所述基于获取到的视频数据进行以视频帧为单位的图像评估之前，还包括：

3.根据权利要求1所述的方法，其特征在于，在获取视频数据时，还同步获取用于展示在视频封面的文本信息；

4.根据权利要求1所述的方法，其特征在于，所述基于获取到的视频数据进行以视频帧为单位的图像评估，包括：

5.根据权利要求4所述的方法，其特征在于，对所述视频数据进行以视频帧为单位的质量评估，得到每个所述视频帧的质量评估值，包括：

基于拉普拉斯算子计算每个视频帧的清晰度；

6.根据权利要求4所述的方法，其特征在于，对所述视频数据进行以视频帧为单位的美学评估，得到每个视频帧的美学评估值，包括：

获取美学质量评估数据集；

7.根据权利要求1所述的方法，其特征在于，所述在检测到所述视频数据中包括具有人脸图像的视频帧时，结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧，包括：

8.根据权利要求7所述的方法，其特征在于，所述对所述人脸图像中的人脸表情进行评估，得到人脸表情评估值，包括：

获取所述人脸图像中预设的人脸关键点的位置信息；

9.根据权利要求7所述的方法，其特征在于，所述将所述人像掩膜布局在所述第一视频帧中，以生成展示于视频封面的第二视频帧，包括：

对所述第一人像掩膜进行描边处理，得到第二人像掩膜；

10.根据权利要求2所述的方法，其特征在于，所述基于预设的特效策略对所述文本信息进行处理，得到特效信息，基于所述特效信息，将所述文本信息叠加在结合所述人脸图像和所述第一视频帧生成展示于视频封面的第二视频帧中，包括：

11.根据权利要求10所述的方法，其特征在于，所述特效策略包括具有倾斜文字效果的第一特效策略以及具有阴影文字效果的第二特效策略；所述基于该特效策略配置指令所指示的特效策略，对所述展示文本信息进行特效处理，得到包含文字特效图像的特效信息，包括：

12.一种视频发布方法，其特征在于，包括：

其中，所述视频分发服务器在发布所述视频数据时，请求封面处理服务器执行上述权利要求1-11任一项所述的方法，以获取展示于视频封面的第二视频帧，并基于所述第二视频帧发布所述视频数据。

13.一种视频封面的生成装置，其特征在于，包括：

14.一种视频发布装置，其特征在于，包括：

15.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-12任一项所述方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-12任一项所述方法的步骤。