CN116758043A

CN116758043A - 一种生成封面图像的方法、装置和设备

Info

Publication number: CN116758043A
Application number: CN202310773673.XA
Authority: CN
Inventors: 张泽华
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-09-15

Abstract

本说明书实施例公开了一种生成封面图像的方法、装置和设备。方案可以包括：获取待生成封面图像的目标视频；采用至少两种候选帧提取方式，从所述目标视频中提取封面候选图，得到封面候选图集合；采用预先训练的图像质量打分模型，计算所述封面候选图集合中各封面候选图的图像质量分；基于所述图像质量分，确定符合预设条件的封面候选图；基于所述符合预设条件的封面候选图，生成所述目标视频的封面图像。

Description

一种生成封面图像的方法、装置和设备

技术领域

本申请涉及视频处理技术领域，尤其涉及一种生成封面图像的方法、装置和设备。

背景技术

在应用程序中，用户可以上传视频内容以供其他用户观看。通常，其他用户在查看视频内容之前，会先看到视频内容的封面图像，该封面图像是从视频内容中选取的一帧图像。在实践中，该封面图像可以是由上传视频内容的用户指定的。在实际应用时，部分视频内容所选取的封面图像存在清晰度低、美观度不足等各种图像质量低的问题，导致观看体验较差、视频点击率较低。

因此，需要提供一种通用的视频封面确定方法，用于生成高质量的视频封面，提升用户的浏览体验。

发明内容

本说明书实施例提供一种生成封面图像的方法、装置和设备，以解决现有视频内容的封面图像的质量低、用户浏览体验不佳的问题。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种生成封面图像的方法，包括：

获取待生成封面图像的目标视频；

采用至少两种候选帧提取方式，从所述目标视频中提取封面候选图，得到封面候选图集合；

采用预先训练的图像质量打分模型，计算所述封面候选图集合中各封面候选图的图像质量分；

基于所述图像质量分，确定符合预设条件的封面候选图；

基于所述符合预设条件的封面候选图，生成所述目标视频的封面图像。

本说明书实施例提供的一种生成封面图像的装置，包括：

视频获取模块，用于获取待生成封面图像的目标视频；

候选帧提取模块，用于采用至少两种候选帧提取方式，从所述目标视频中提取封面候选图，得到封面候选图集合；

图像质量打分模块，用于采用预先训练的图像质量打分模型，计算所述封面候选图集合中各封面候选图的图像质量分；

封面候选图筛选模块，用于基于所述图像质量分，确定符合预设条件的封面候选图；

封面图像生成模块，用于基于所述符合预设条件的封面候选图，生成所述目标视频的封面图像。

本说明书实施例提供的一种生成封面图像的设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取待生成封面图像的目标视频；

基于所述图像质量分，确定符合预设条件的封面候选图；

本说明书一个实施例至少能够达到以下有益效果：通过对于目标视频，采用至少两种候选帧提取方式从目标视频中提取封面候选图，并采用预先训练的图像质量打分模型计算各封面候选图的图像质量分，然后基于图像质量分确定出符合预设条件的封面候选图，进而生成所述目标视频的封面图像，由此，提供了一种为视频自动生成封面图像的方法，由于封面候选图的选取角度丰富且筛选封面图像的过程使用模型打分，使得生成的封面图像的质量高、视觉效果好，能够提升用户的视频浏览体验。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种生成封面图像的方法的流程示意图；

图2为本说明书实施例提供的一种实际应用场景下，生成封面图像的方法的流程示意图；

图3为本说明书实施例提供的对应于图1的一种生成封面图像的装置的结构示意图；

图4为本说明书实施例提供的对应于图1的一种生成封面图像的设备的结构示意图。

具体实施方式

为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书一个或多个实施例保护的范围。

应当理解，尽管在本申请文件中可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

在直播或短视频平台中，有较多的用户上传短视频内容供其他用户观看。但是，其中部分直播或短视频内容所选取的封面图像存在美观度不足、清晰度低、存在黑边等各种图像质量低的问题，由此导致观看体验较差、点击率较低。

为了解决现有技术中的缺陷，本说明书实施例提出了一种通用的智能视频封面图像生成方法，用于生成高质量的视频封面图像，提升用户浏览体验。

接下来，将针对说明书实施例提供的一种生成封面图像的方法结合附图进行具体说明。

图1为本说明书实施例提供的一种生成封面图像的方法的流程示意图。

从程序角度而言，流程的执行主体可以为搭载于应用服务器或应用终端的程序。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。

如图1所示，该流程可以包括以下步骤：

步骤102：获取待生成封面图像的目标视频。

其中，目标视频可以是用户上传到直播或视频平台中的视频。通常，在其他用户查看目标视频的视频内容之前，会先看到视频的封面图像。

目前，目标视频的封面图像通常可以由上传目标视频的用户来指定或设置。具体地，用户可以指定目标视频中的某一帧作为封面图像，或者，用户可以基于目标视频中的一帧或多帧图像经处理后得到封面图像。在本说明书的实施例中，将上传目标视频的用户指定或设置的封面图像称为预设封面图。

在本说明书的实施例中，为了解决预设封面图的质量不稳定、质量不高、视觉效果差，进而导致其他用户对目标视频的浏览体验差、点击率低等问题，由图1的流程的执行主体(用户终端或服务器)来自动为目标视频生成封面图像。

在自动生成封面图像时，首先需要获取待生成封面图像的目标视频。例如，若在用户终端上执行图1的流程，则可以将目标视频获取到用户终端的用于生成封面图像的装置中。又如，若在服务器中执行图1的流程，则可以将目标视频获取到服务器的用于生成封面图像的装置中。

步骤104：采用至少两种候选帧提取方式，从所述目标视频中提取封面候选图，得到封面候选图集合。

在本说明书的实施例中，生成封面图像的过程，大致可以包括三个阶段：第一阶段，确定封面候选图，如步骤104；第二阶段，从封面候选图中筛选符合预设条件的封面候选图，如步骤106和步骤108；第三阶段，对符合预设条件的封面候选图进行后处理，得到封面图像。

为了在第二阶段中能够筛选出符合预设条件的封面候选图，需要使第一阶段中确定的封面候选图尽量丰富。在本说明书的实施例中，通过采用至少两种候选帧提取方式，来使得封面候选图的选择尽量丰富。

在实际应用时，至少两种候选帧提取方式，可以反映至少两种不同的候选帧选择标准。

可选地，所述至少两种候选帧提取方式，可以包括以下候选帧提取方式中的至少两种：第一种方式，识别目标视频中的场景切换帧，根据场景切换帧来确定候选帧；第二种方式，对目标视频进行帧聚类，根据帧聚类结果来提取候选帧；第三种方式，根据目标视频的编码方式，将编码信息量大的帧确定为候选帧。提取候选帧的方式也可以不限于在此给出的示例。

步骤106：采用预先训练的图像质量打分模型，计算所述封面候选图集合中各封面候选图的图像质量分。

在本说明书的实施例中，生成封面图像的过程中，第二阶段筛选符合预设条件的封面候选图时，可以采用预先训练的图像质量打分模型，对由步骤104确定的封面候选图集合中的各个封面候选图逐个打分，来得到各封面候选图对应的图像质量分。

在实际应用时，所述图像质量打分模型的打分维度可以包括视觉效果、图像显著性、人脸是否居中等多个维度。

步骤108：基于所述图像质量分，确定符合预设条件的封面候选图。

在本说明书的实施例中，得到各封面候选图的图像质量分之后，可以按照图像质量分对各封面候选图进行排序，从中确定出图像质量分高的封面候选图。

例如，所述预设条件可以是图像质量分最高。即，可以将所述封面候选图集合中的图像质量分最高的封面候选图，确定为符合预设条件的封面候选图，执行后续步骤110的图像后处理。

又如，所述预设条件可以是图像质量分较高的前预设数量。即，可以将所述封面候选图集合中的图像质量分较高的前N个封面候选图，确定为符合预设条件的封面候选图，执行后续步骤110的图像后处理。

步骤110：基于所述符合预设条件的封面候选图，生成所述目标视频的封面图像。

在实际应用时，基于符合预设条件的封面候选图生成封面图像的过程，可以是对符合预设条件的封面候选图进行图像后处理的过程。具体地，图像后处理的过程可以包括图像裁剪、提升图像清晰度等，不限于此。

可选地，步骤108中确定的可以是一个符合预设条件的封面候选图，这种情况下，步骤110可以对这一个符合预设条件的封面候选图进行后处理，以生成目标视频的封面图像。

可选地，步骤108中确定的可以是多个(例如，5个)符合预设条件的封面候选图，这种情况下，在执行步骤110的图像后处理时：可以先对第一优选的(例如，图像质量分最高)的封面候选图进行后处理，得到第一推荐的封面图像，并审核(例如，人工审核或机器审核)该第一推荐的封面图像是否符合预设的封面图像标准，若符合，则将该第一推荐的封面图像确定为目标视频的封面图像；若不符合，则对第二优选的(例如，图像质量分第二高)的封面候选图进行后处理，得到第二推荐的封面图像，并审核(例如，人工审核或机器审核)该第二推荐的封面图像是否符合预设的封面图像标准，若符合，则将该第二推荐的封面图像确定为目标视频的封面图像，若仍然不符合，则继续对符合预设条件的封面候选图中的其他封面候选图进行处理，直至确定出符合预设的封面图像标准的封面候选图。

在实际应用时，基于本说明书实施例提供的步骤102至步骤110的方法，通常能够确定出符合预设的封面图像标准的封面候选图；若未从所述多个符合预设条件的封面候选图中确定出符合预设的封面图像标准的封面候选图，则可以直接将第一推荐的封面图像或者用户提供的预设封面图确定为所述目标视频的封面图像。

应当理解，本说明书一个或多个实施例所述的方法中，部分步骤的顺序可以根据实际需要调整，或者可以省略部分步骤。

图1中的方法，通过对于目标视频，采用至少两种候选帧提取方式从目标视频中提取封面候选图，得到封面候选图集合，并采用预先训练的图像质量打分模型计算封面候选图集合中各封面候选图的图像质量分，然后基于图像质量分确定出符合预设条件的封面候选图，进而生成所述目标视频的封面图像，由此，提供了一种为视频自动生成封面图像的方法，由于封面候选图的选择角度丰富且筛选过程使用模型打分，使得生成的封面图像的质量高、视觉效果好，能够提高用户对视频的点击率。

基于图1的方法，本说明书实施例还提供了该方法的一些具体实施方式，下面进行说明。

在本说明书一个或更多个可选的实施例中，步骤104中的所述至少两种候选帧提取方式，具体可以包括以下三种方式中的至少两种方式。

第一种方式：识别目标视频中的场景切换帧，根据场景切换帧来确定候选帧。场景切换帧，可以是指视频画面切换时的帧。在实际应用时，可以根据帧差来判断是否发生视频画面切换/场景切换。例如，若相邻帧的像素值差异较大，则可以判断视频画面进行了切换。

具体地，可以计算所述目标视频中各相邻帧对之间的帧差；将所述帧差大于预设帧差阈值的相邻帧对确定为场景切换帧(例如，可以将所述帧差大于预设帧差阈值的相邻帧中的后一帧确定为场景切换帧)；将所述场景切换帧确定为封面候选图。

其中，所述预设帧差阈值可以根据视频类型来设置，以提升场景切换帧确定方法的准确性。例如，不同的视频类型对应的预设帧差阈值可以不同。

第二种方式：对目标视频进行帧聚类，根据帧聚类结果来提取候选帧。具体地，可以采用预设的帧聚类算法，对所述目标视频中的全部视频帧进行聚类，得到若干视频帧簇；从所述若干视频帧簇中，例如各选取至少一帧，确定为封面候选图。

可选地，所述预设的帧聚类算法可以包括：将视频帧由RGB空间转至HSV空间；基于HSV空间计算视频帧的直方图；然后根据直方图的特征，使用聚类算法(例如，K-means算法)确定出预设聚类中心数量的若干视频帧簇。

其中，所述预设聚类中心数量，可以是根据视频时长确定的。视频时长越长，则预设聚类中心数量可以越大。在实际应用时，所述预设聚类中心数量可以不小于前述第一种方式中的场景切换帧的数量。

第三种方式：根据目标视频的编码方式，将编码信息量大的帧确定为候选帧。具体地，可以将所述目标视频中的完整编码帧确定为封面候选图。

在采用H.264或H.265协议编码的视频中，有三种帧，完整编码的帧叫I帧，参考之前的I帧生成的只包含差异部分编码的帧叫P帧，还有一种参考前后的帧编码的帧叫B帧。在本说明书的实施例中，若所述目标视频采用采用H.264或H.265协议编码，则可以将目标视频的I帧确定为封面候选图。

在本说明书的实施例中，采用多种获取候选帧的策略，因此封面候选图较丰富，更有可能(有更高的概率)选出图像质量高的封面图像。

在本说明书一个或更多个可选的实施例中，如果上传目标视频的用户预先指定或设置了预设封面图，则可以将预设封面图也放到放到封面候选图集合中，参与后续图像质量打分。具体地，所述生成封面图像的方法还可以包括：获取所述目标视频的预设封面图，作为封面候选图。

在本说明书一个或更多个可选的实施例中，在确定了封面候选图集合之后，考虑到封面候选图集合中的封面候选图数量较多，为了减少后续使用模型计算图像质量分的计算资源消耗，可以对封面候选图集合进行过滤。

具体地，可以从所述封面候选图集合中，过滤掉符合预设过滤条件的封面候选图。其中，预设过滤条件可以包括一条或多条。不同的预设过滤条件反映不同的过滤策略。不同的过滤策略用于过滤掉不同类型的低质量候选图。

一种可选的过滤策略可以包括，过滤掉信息量较少的候选图。例如，若图像的方差偏低或拉普拉斯方差偏低，则说明图像存在清晰度不足或信息量少等问题，可以过滤掉。

可选地，所述预设过滤条件具体可以包括：所述封面候选图的方差小于预设的方差阈值；或者，所述封面候选图的拉普拉斯方差小于预设的拉普拉斯方差阈值；或者，所述封面候选图的方差小于预设的方差阈值并且所述封面候选图的拉普拉斯方差小于预设的拉普拉斯方差阈值。

另外可选地，所述从所述封面候选图集合中，过滤掉符合预设过滤条件的封面候选图，具体可以包括：计算所述封面候选图集合中各封面候选图的方差；基于方差对所述各封面候选图排序；根据排序结果，将方差较小的第一预设过滤比例的封面候选图过滤掉。其中，所述第一预设过滤比例可以根据需要设置，例如，可以将封面候选图集合中的方差较小的30％的封面候选图过滤掉。

同理，所述从所述封面候选图集合中，过滤掉符合预设过滤条件的封面候选图，具体可以包括：计算所述封面候选图集合中各封面候选图的拉普拉斯方差；基于拉普拉斯方差对所述各封面候选图排序；根据排序结果，将拉普拉斯方差较小的第二预设过滤比例的封面候选图过滤掉。其中，所述第二预设过滤比例可以根据需要设置，例如，可以将封面候选图集合中的拉普拉斯方差较小的40％的封面候选图过滤掉。

另一种可选的过滤策略可以包括，过滤掉图像过曝光或欠曝光的候选图。

可选地，若所述封面候选图的亮度过低，表明该封面候选图是欠曝光的，则可以过滤掉。所述预设过滤条件具体可以包括：所述封面候选图的整体亮度值小于第一亮度阈值；或者，所述封面候选图中亮度值小于第二亮度阈值的像素点的比例大于第一比例阈值；或者，所述封面候选图的整体亮度值小于第一亮度阈值并且所述封面候选图中亮度值小于第二亮度阈值的像素点的比例大于第一比例阈值。

其中，所述第一亮度阈值、所述第二亮度阈值、所述第一比例阈值均可以根据需要设置。在实际应用时，所述第二亮度阈值可以大于所述第一亮度阈值。例如，所述第一亮度阈值可以为35，所述第二亮度阈值可以为60，所述第一比例阈值可以为85％。可以理解的是，在此给出的数值仅是示例，是为了便于理解的需要，不构成对本申请技术方案保护范围的限定。

另外可选地，若所述封面候选图的亮度过高，表明该封面候选图是过曝光的，则可以过滤掉。所述预设过滤条件具体可以包括：所述封面候选图的整体亮度值大于第三亮度阈值；或者，所述封面候选图中亮度值大于第四亮度阈值的像素点的比例大于第二比例阈值；或者，所述封面候选图的整体亮度值大于第三亮度阈值并且所述封面候选图中亮度值大于第四亮度阈值的像素点的比例大于第二比例阈值。

其中，所述第三亮度阈值、所述第四亮度阈值、所述第二比例阈值均可以根据需要设置。在实际应用时，所述第三亮度阈值可以大于所述第四亮度阈值。例如，所述第三亮度阈值可以为230，所述第四亮度阈值可以为210，所述第二比例阈值可以为85％。可以理解的是，在此给出的数值仅是示例，是为了便于理解的需要，不构成对本申请技术方案保护范围的限定。

在本说明书的实施例中，采用低质帧/低质封面候选图过滤策略，快速过滤掉一批低质帧/低质封面候选图，减少了图像打分的计算量，为后续的处理节省计算资源。

另外，在实际应用时，可选地，在对封面候选图集合进行过滤的过程中，可以不对预设封面图执行预设过滤条件的判断。即，不论预设封面图是否符合预设过滤条件，均可以不将预设封面图过滤掉。

在本说明书一个或更多个可选的实施例中，步骤106中所述采用预先训练的图像质量打分模型，计算所述封面候选图集合中各封面候选图的图像质量分，具体可以包括：采用预先训练的视觉效果检测模型，得到各封面候选图的视觉效果分；然后，基于所述各封面候选图的所述视觉效果分，计算所述各封面候选图的图像质量分。

其中，所述视觉效果检测模型可以是基于第一样本集和第二样本集训练得到的；所述第一样本集中包括人工打分的第一图片，所述第一图片的第一标签分是基于人工打分确定的；所述第二样本集中包括对原始图片加噪声处理得到的第二图片，所述第二图片的第二标签分是基于所述第二图片相比于所述原始图片的损失程度值确定的。

其中，所述视觉效果分，可以用于反映用户对封面候选图的整体印象，或者说，可以用于反映封面候选图对用户的吸引程度。视觉效果分越高，则用户对该封面候选图的整体印象越好，该封面候选图越能够吸引用户的关注或点击。在实际应用中，所述视觉效果分，也可以称为美学度分。

其中，所述视觉效果检测模型的训练过程可以包括：获取带标签的训练样本集，所述训练样本集可以包括所述第一样本集和所述第二样本集；然后，基于所述训练样本集，对卷积神经网络模型进行训练，得到视觉效果检测模型。

在实际应用时，所述第一样本集可以是从开源数据库中获取的。例如，可以获取美学评估数据集AVA(AVA:ALarge-ScaleDatabaseforAestheticVisualAnalysis)，采用人工打分(例如，多人打分取平均)，将图像打分为1～10分。

在实际应用时，所述第二样本集可以是预先生成的。所述第二样本集的生成方法，具体可以包括：获取原始图片集合；对所述原始图片集合中的原始图片进行加噪处理，得到加噪处理后的第二图片；所述加噪处理包括高斯模糊、运动模糊、失焦模糊或图片压缩中的至少一者；计算所述加噪后图片相对于所述原始图片的损失函数值；基于所述损失函数值，确定所述第二图片的第二标签分。

其中，所述原始图片可以是视频发布平台中的高质量图片。所述视频发布平台可以是待发布所述目标视频的平台。所述高质量图片，可以是高质量视频封面图，具体地，可以是根据用户的视频点击率筛选出的高质量视频封面图。

例如，所述高质量图片，可以是基于下述维度中的至少一种维度确定的：清晰度、曝光度、黑边大小、有无马赛克、有无花屏，在实际应用中也可以不限于这些维度。作为示例，满足清晰度高、曝光度适中、无黑边(或黑边较小)、无马赛克且无花屏中的至少预设条件数量的图片可以作为高质量的所述原始图片。

其中，所述第二标签分可以与所述损失函数值负相关。所述损失函数值越大，则所述标签分越低。所述损失函数值越小，则所述标签分越高。

在本说明书实施例中，采用了符合人类审美的多个维度的特征来训练视觉效果检测模型，由此，所述视觉效果检测模型能够符合真实人类对封面候选图的评判标准；进而使用该模型确定封面候选图的视觉效果分，由此，所确定出的视觉效果分也能够反映真实人类用户对封面候选图的喜爱程度，进而，能够确定出视觉效果更好的视频封面图像，以便提升视频的点击率。

在本说明书一个或更多个可选的实施例中，还可以从图像显著性角度来考虑图像质量。具体地，所述采用预先训练的图像质量打分模型，计算所述封面候选图集合中各封面候选图的图像质量分，还可以包括：采用预设的图像显著性检测模型，确定所述封面候选图的显著性区域分布图；基于符合高斯分布的权重对所述显著性区域分布图进行加权计算，得到所述封面候选图的显著性分；基于所述各封面候选图的所述视觉效果分和所述显著性分，得到所述各封面候选图的图像质量分。

其中，所述符合高斯分布的权重的中心在图像的中心，由此，显著性越大，越靠近图像中心，则显著性分越高。

在实际应用时，可以将所述视觉效果分和所述显著性分进行归一化处理，得到归一化的视觉效果分和归一化的显著性分；然后，将所述归一化的视觉效果分与所述归一化的显著性分相乘，得到图像质量分。

例如，可以将视觉效果线性缩放至0～10，将显著性分线性缩放至0.7～1，然后基于线性缩放后的视觉效果分和显著性分的乘积作为最终的图像质量分。

在本说明书一个或更多个可选的实施例中，若目标视频和封面候选图中出现人脸图像，还可以从人脸位置角度考虑图像质量。具体地，所述采用预先训练的图像质量打分模型，计算所述封面候选图集合中各封面候选图的图像质量分，还可以包括：采用预设的人脸识别模型，识别所述封面候选图中的人脸图像；判断是否：所述封面候选图中存在人脸图像且所述人脸图像位于所述封面候选图的边界，得到第三判断结果；若所述第三判断结果为是，则将所述视觉效果分乘以预设比值，得到图像质量分；所述预设比值为大于零且小于1的数。所述预设比值可以根据实际需要设置，例如，可以设置为0.8。

在实际应用时，可以在考虑视觉效果分、显著性分、人脸图像居中情况等多个维度来确定封面候选图的图像质量分，多元化的评价维度更有利于筛选出质量更高的视频封面图。

在本说明书一个或更多个可选的实施例中，当步骤110中生成所述目标视频的封面图像时，可以提高图像的清晰度。具体地，可以采用预设的图像超分模型，对所述封面候选图进行处理，得到图像清晰度提升的封面图像。

更具体地，可以将封面候选图经过图像清晰度模型打分，若清晰度较低，则由图像超分模型提升图像清晰度，最终作为智能封面图像的提取结果。例如，可以采用预设的图像清晰度模型，计算所述封面候选图的清晰度分；若所述清晰度分小于预设的清晰度阈值分，则采用预设的图像超分模型，对所述封面候选图进行处理，得到图像清晰度提升的封面图像。

其中，预设的图像超分模型和预设的图像清晰度模型可以采用现有技术中的任意可用的方法来实现。例如，预设的图像超分模型可以采用NAFNet(NonlinearActivationFree NetworkforImageRestoration)模型。

在本说明书一个或更多个可选的实施例中，当步骤110中生成所述目标视频的封面图像时，若视频有黑边，还可以对黑边进行优化。具体地，可以识别所述封面候选图是否存在黑边；若存在黑边(例如，左右黑边)，则裁掉所述黑边，得到去黑边后的封面候选图；然后将所述去黑边后的封面候选图剪裁至预设封面比例，得到所述目标视频的封面图像。

在实际应用时，由于是视频封面图像对于长宽比例有要求，因此，在裁掉黑边后，需要进一步对剩余图像进行比例优化。可选地，可以采用短边对齐后，在长边按照滑动窗口剪裁出一系列图片并打分后确定出最终的封面图像。

具体地，可以以预设封面比例的窗口，在所述去黑边后的封面候选图中滑动窗口，得到若干备选封面图；计算所述若干备选封面图的图像质量分；将图像质量分符合第二预设条件的备选封面图确定为所述目标视频的封面图像。例如，可以将图像质量分最高的备选封面图确定为所述目标视频的封面图像。

其中，所述若干备选封面图的图像质量分可以基于视觉效果分和显著性分中的至少一者来确定。视觉效果分和显著性分可以采用上文中描述的方法来确定，在此不再赘述。

优选地，在实际应用时，可以在提升图像清晰度之前，执行图像黑边剪裁的操作，能够一定程度上减少图像清晰度提升过程的数据处理量。

另外，在实际应用时，可选地，在进行封面候选图的后处理时，可以不对预设封面图进行裁剪。

根据上面的说明，本说明书实施例提供的一种实际应用场景下，生成封面图像的方法的流程示意图，如图2所示。

在图2中，步骤200，视频输入，即获取用户上传的目标视频。

步骤210，对输入的视频提取候选帧。

在实际应用时，候选帧的产生可以主要由原视频经场景切换帧提取(步骤211)、帧聚类(步骤212)、关键帧提取(步骤213)等方式得来。

可选地，还可以将上述得到的候选帧再经由低质帧过滤策略进行过滤(步骤214)，以减少候选帧的数量。在实际应用时，候选帧过滤策略可以主要用来过滤信息量较少、质量较低的帧，例如，如纯色图、过曝光图像、欠曝光图像等。

步骤220：对候选帧进行逐帧的图像质量打分。

在实际应用时，图像质量的打分维度可以包含图像美学质量评估(步骤221)、图像显著性区域是否在边界(步骤222)、人脸(若有)是否居中(步骤223)等维度。

例如，可以将所有的候选帧打分之后进行排序。

步骤230：对步骤220筛选出来的图像进行后处理。

在实际应用时，首先可以检测图像是否存在黑边，若存在则将图像黑边裁剪掉(步骤231)。

由于方法最终输出的封面图像具有长宽比例要求，因此，可以采用短边对齐后，以一定比例大小的窗口在裁剪黑边后的图像中滑动裁剪，裁剪出特定比例的图像；进而，可以对这些图像的美学度和显著性进行打分，并最终根据打分输出裁剪后的图像。由此，能够得到图像显著性区域居中的剪裁后图像(步骤232)。

在实际应用中，将输出结果经过图像清晰度模块打分，若清晰度较低，则由图像超分模型提升图像清晰度，最终作为智能封面提取结果(步骤233)。

步骤240：输出根据步骤220的打分结果排序且经步骤230后处理之后的图像，作为智能提取的封面图像。

在实际应用中，可以仅输出步骤220的打分结果排序中图像质量分最高的图像，作为智能提取的封面图像。

另外可选地，还可以同时输出步骤220的打分结果排序中图像质量分排序靠前的多个图像(例如，质量分第2至第5的图像)作为候选封面。在这种情况下，若基于图像质量分最高的图像输出的封面图像经人工审核后不符合要求，则可以从候选封面中选择一张作为封面。

步骤250：可选地，若视频具有预设封面图，例如，上传目标视频的用户指定或设置了预设封面图，则在本说明书的实施例中，也可以计算所述预设封面图的图像质量分，并参与排序。

在实际应用时，用户提供的视频预设封面图，也可以作为智能提取的封面图像或候选封面在步骤240中输出。

基于同样的思路，本说明书实施例还提供了上述方法对应的装置。

图3为本说明书实施例提供的对应于图1的一种生成封面图像的装置的结构示意图。

如图3所示，该装置可以包括：

视频获取模块302，用于获取待生成封面图像的目标视频；

候选帧提取模块304，用于采用至少两种候选帧提取方式，从所述目标视频中提取封面候选图，得到封面候选图集合；

图像质量打分模块306，用于采用预先训练的图像质量打分模型，计算所述封面候选图集合中各封面候选图的图像质量分；

封面候选图筛选模块308，用于基于所述图像质量分，确定符合预设条件的封面候选图；

封面图像生成模块310，用于基于所述符合预设条件的封面候选图，生成所述目标视频的封面图像。

基于图3的装置，本说明书实施例还提供了该方法的一些具体实施方案，下面进行说明。

可选地，所述至少两种候选帧提取方式，具体可以包括以下三种方式中的至少两种方式：

第一种方式：计算所述目标视频中各相邻帧对之间的帧差；将所述帧差大于预设帧差阈值的相邻帧对确定为场景切换帧；将所述场景切换帧确定为封面候选图；

第二种方式：采用预设的帧聚类算法，对所述目标视频中的全部视频帧进行聚类，得到若干视频帧簇；从所述若干视频帧簇中，各选取至少一帧，确定为封面候选图；

第三种方式：将所述目标视频中的完整编码帧确定为封面候选图。

可选地，所述候选帧提取模块304，还用于获取所述目标视频的预设封面图，作为封面候选图。

可选地，所述装置还包括过滤模块，用于：从所述封面候选图集合中，过滤掉符合预设过滤条件的封面候选图。

可选地，所述预设过滤条件具体可以包括：所述封面候选图的整体亮度值小于第一亮度阈值；或者，所述封面候选图中亮度值小于第二亮度阈值的像素点的比例大于第一比例阈值；或者，所述封面候选图的整体亮度值小于第一亮度阈值并且所述封面候选图中亮度值小于第二亮度阈值的像素点的比例大于第一比例阈值。

可选地，所述预设过滤条件具体可以包括：所述封面候选图的整体亮度值大于第三亮度阈值；或者，所述封面候选图中亮度值大于第四亮度阈值的像素点的比例大于第二比例阈值；或者，所述封面候选图的整体亮度值大于第三亮度阈值并且所述封面候选图中亮度值大于第四亮度阈值的像素点的比例大于第二比例阈值。

可选地，所述图像质量打分模块306，具体可以用于：采用预先训练的视觉效果检测模型，得到各封面候选图的视觉效果分；所述视觉效果检测模型是基于第一样本集和第二样本集训练得到的；所述第一样本集中包括人工打分的第一图片，所述第一图片的第一标签分是基于人工打分确定的；所述第二样本集中包括对原始图片加噪声处理得到的第二图片，所述第二图片的第二标签分是基于所述第二图片相比于所述原始图片的损失程度值确定的；基于所述各封面候选图的所述视觉效果分，计算所述各封面候选图的图像质量分。

可选地，所述视觉效果检测模型的生成方法，可以包括：获取带标签的训练样本集；所述训练样本集包括所述第一样本集和所述第二样本集；基于所述训练样本集，对卷积神经网络模型进行训练，得到视觉效果检测模型。

可选地，所述第二样本集的获取方法，可以包括：获取原始图片集合；对所述原始图片集合中的原始图片进行加噪处理，得到加噪处理后的第二图片；所述加噪处理包括高斯模糊、运动模糊、失焦模糊或图片压缩中的至少一者；计算所述加噪后图片相对于所述原始图片的损失函数值；基于所述损失函数值，确定所述第二图片的第二标签分。

可选地，所述图像质量打分模块306，具体还可以用于：采用预设的图像显著性检测模型，确定所述封面候选图的显著性区域分布图；基于符合高斯分布的权重对所述显著性区域分布图进行加权计算，得到所述封面候选图的显著性分；基于所述各封面候选图的所述视觉效果分和所述显著性分，得到所述各封面候选图的图像质量分。

可选地，所述图像质量打分模块306，具体还可以用于：采用预设的人脸识别模型，识别所述封面候选图中的人脸图像；判断是否：所述封面候选图中存在人脸图像且所述人脸图像位于所述封面候选图的边界，得到第三判断结果；若所述第三判断结果为是，则将所述视觉效果分乘以预设比值，得到图像质量分；所述预设比值为大于零且小于1的数。

可选地，封面图像生成模块310，具体可以用于：采用预设的图像清晰度模型，计算所述封面候选图的清晰度分；若所述清晰度分小于预设的清晰度阈值分，则采用预设的图像超分模型，对所述封面候选图进行处理，得到图像清晰度提升的封面图像。

可选地，封面图像生成模块310，具体还可以用于：识别所述封面候选图是否存在黑边；若存在黑边，则裁掉所述黑边，得到去黑边后的封面候选图；将所述去黑边后的封面候选图剪裁至预设封面比例，得到所述目标视频的封面图像。

可选地，所述将所述去黑边后的封面候选图剪裁至预设封面比例，得到所述目标视频的封面图像，具体可以包括：以预设封面比例的窗口，在所述去黑边后的封面候选图中滑动窗口，得到若干备选封面图；计算所述若干备选封面图的图像质量分；将图像质量分符合第二预设条件的备选封面图确定为所述目标视频的封面图像。

可以理解，上述的各模块是指计算机程序或者程序段，用于执行某一项或多项特定的功能。此外，上述各模块的区分并不代表实际的程序代码也必须是分开的。

基于同样的思路，本说明书实施例还提供了上述方法对应的设备。

如图4所示，设备400可以包括：

至少一个处理器410；以及，

与所述至少一个处理器通信连接的存储器430；其中，

所述存储器430存储有可被所述至少一个处理器410执行的指令420，所述指令被所述至少一个处理器410执行，以使所述至少一个处理器410能够：

获取待生成封面图像的目标视频；

基于所述图像质量分，确定符合预设条件的封面候选图；

基于同样的思路，本说明书实施例还提供了上述方法对应的计算机可读介质。计算机可读介质上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现以下方法：

获取待生成封面图像的目标视频；

基于所述图像质量分，确定符合预设条件的封面候选图；

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可。每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。本说明书实施例提供的装置和设备与方法是对应的，因此装置和设备也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置和设备的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(ProgrammableLogicDevice,PLD)(例如现场可编程门阵列(FieldProgrammableGateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware DescriptionLanguage，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced BooleanExpressionLanguage)、AHDL(AlteraHardwareDescriptionLanguage)、Confluence、CUPL(CornellUniversityProgrammingLanguage)、HDCal、JHDL(JavaHardwareDescription Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardwareDescriptionLanguage)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegratedCircuitHardwareDescription Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC625D、AtmelAT91SAM、MicrochipPIC18F26K20以及SiliconeLabsC8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字符多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种生成封面图像的方法，包括：

获取待生成封面图像的目标视频；

基于所述图像质量分，确定符合预设条件的封面候选图；

2.如权利要求1所述的方法，所述至少两种候选帧提取方式，具体包括以下三种方式中的至少两种方式：

计算所述目标视频中各相邻帧对之间的帧差；将所述帧差大于预设帧差阈值的相邻帧对确定为场景切换帧；将所述场景切换帧确定为封面候选图；

采用预设的帧聚类算法，对所述目标视频中的全部视频帧进行聚类，得到若干视频帧簇；从所述若干视频帧簇中，确定封面候选图；

将所述目标视频中的完整编码帧确定为封面候选图。

3.如权利要求1所述的方法，还包括：

获取所述目标视频的预设封面图，作为封面候选图。

4.如权利要求1所述的方法，所述采用预先训练的图像质量打分模型，计算所述封面候选图集合中各封面候选图的图像质量分之前，还包括：

从所述封面候选图集合中，过滤掉符合预设过滤条件的封面候选图。

5.如权利要求4所述的方法，所述预设过滤条件具体包括：

所述封面候选图的方差小于预设的方差阈值；

或者，

所述封面候选图的拉普拉斯方差小于预设的拉普拉斯方差阈值；

或者，

所述封面候选图的方差小于预设的方差阈值并且所述封面候选图的拉普拉斯方差小于预设的拉普拉斯方差阈值。

6.如权利要求4所述的方法，所述预设过滤条件具体包括：

所述封面候选图的整体亮度值小于第一亮度阈值；

或者，

所述封面候选图中亮度值小于第二亮度阈值的像素点的比例大于第一比例阈值；

或者，

所述封面候选图的整体亮度值小于第一亮度阈值并且所述封面候选图中亮度值小于第二亮度阈值的像素点的比例大于第一比例阈值。

7.如权利要求4所述的方法，所述预设过滤条件具体包括：

所述封面候选图的整体亮度值大于第三亮度阈值；

或者，

所述封面候选图中亮度值大于第四亮度阈值的像素点的比例大于第二比例阈值；

或者，

所述封面候选图的整体亮度值大于第三亮度阈值并且所述封面候选图中亮度值大于第四亮度阈值的像素点的比例大于第二比例阈值。

8.如权利要求1所述的方法，所述采用预先训练的图像质量打分模型，计算所述封面候选图集合中各封面候选图的图像质量分，具体包括：

采用预先训练的视觉效果检测模型，得到各封面候选图的视觉效果分；所述视觉效果检测模型是基于第一样本集和第二样本集训练得到的；所述第一样本集中包括人工打分的第一图片，所述第一图片的第一标签分是基于人工打分确定的；所述第二样本集中包括对原始图片加噪声处理得到的第二图片，所述第二图片的第二标签分是基于所述第二图片相比于所述原始图片的损失程度值确定的；

基于所述各封面候选图的所述视觉效果分，计算所述各封面候选图的图像质量分。

9.如权利要求8所述的方法，所述采用预先训练的视觉效果检测模型，得到各封面候选图的视觉效果分之前，还包括：

获取带标签的训练样本集；所述训练样本集包括所述第一样本集和所述第二样本集；

基于所述训练样本集，对卷积神经网络模型进行训练，得到视觉效果检测模型。

10.如权利要求9所述的方法，所述获取带标签的训练样本集之前，还包括：

获取原始图片集合；

对所述原始图片集合中的原始图片进行加噪处理，得到加噪处理后的第二图片；所述加噪处理包括高斯模糊、运动模糊、失焦模糊或图片压缩中的至少一者；

计算所述加噪后图片相对于所述原始图片的损失函数值；

基于所述损失函数值，确定所述第二图片的第二标签分。

11.如权利要求8所述的方法，所述采用预先训练的图像质量打分模型，计算所述封面候选图集合中各封面候选图的图像质量分，还包括：

采用预设的图像显著性检测模型，确定所述封面候选图的显著性区域分布图；

基于符合高斯分布的权重对所述显著性区域分布图进行加权计算，得到所述封面候选图的显著性分；

基于所述各封面候选图的所述视觉效果分和所述显著性分，得到所述各封面候选图的图像质量分。

12.如权利要求8所述的方法，所述采用预先训练的图像质量打分模型，计算所述封面候选图集合中各封面候选图的图像质量分，还包括：

采用预设的人脸识别模型，识别所述封面候选图中的人脸图像；

判断是否：所述封面候选图中存在人脸图像且所述人脸图像位于所述封面候选图的边界，得到第三判断结果；

若所述第三判断结果为是，则将所述视觉效果分乘以预设比值，得到图像质量分；所述预设比值为大于零且小于1的数。

13.如权利要求1所述的方法，所述基于所述符合预设条件的封面候选图，生成所述目标视频的封面图像，具体包括：

采用预设的图像清晰度模型，计算所述封面候选图的清晰度分；

若所述清晰度分小于预设的清晰度阈值分，则采用预设的图像超分模型，对所述封面候选图进行处理，得到图像清晰度提升的封面图像。

14.如权利要求1所述的方法，所述基于所述符合预设条件的封面候选图，生成所述目标视频的封面图像，具体包括：

识别所述封面候选图是否存在黑边；

若存在黑边，则裁掉所述黑边，得到去黑边后的封面候选图；

将所述去黑边后的封面候选图剪裁至预设封面比例，得到所述目标视频的封面图像。

15.如权利要求14所述的方法，所述将所述去黑边后的封面候选图剪裁至预设封面比例，得到所述目标视频的封面图像，具体包括：

以预设封面比例的窗口，在所述去黑边后的封面候选图中滑动窗口，得到若干备选封面图；

计算所述若干备选封面图的图像质量分；

将图像质量分符合第二预设条件的备选封面图确定为所述目标视频的封面图像。

16.一种生成封面图像的装置，包括：

视频获取模块，用于获取待生成封面图像的目标视频；

17.一种生成封面图像的设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取待生成封面图像的目标视频；

基于所述图像质量分，确定符合预设条件的封面候选图；