CN113709563B

CN113709563B - 视频封面选取方法、装置、存储介质以及电子设备

Info

Publication number: CN113709563B
Application number: CN202111255498.2A
Authority: CN
Inventors: 贺沁雯
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-03-08
Anticipated expiration: 2041-10-27
Also published as: CN113709563A

Abstract

本发明公开了一种视频封面选取方法、装置、存储介质以及电子设备。该方法包括：获取目标视频中的多帧第一视频帧；识别多帧第一视频帧，得到多帧第一视频帧中的每一帧第一视频帧的显著图；按照显著图的像素占比，从多帧第一视频帧中选择出多帧第二视频帧，其中，像素占比为显著图中有值的像素的数量与显著图的像素的总数量的比值；对于每一帧第二视频帧，将第二视频帧的显著图与第二视频帧合并，得到目标视频帧；根据多个目标视频帧，确定目标视频的封面。本发明解决了选择的封面内容表现力不够的技术问题。

Description

视频封面选取方法、装置、存储介质以及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种视频封面选取方法、装置、存储介质以及电子设备。

背景技术

现有技术中，对于一段视频，通常可以自动的选择或者配置视频的封面，可以从视频中选择一帧图像作为视频封面。

然而，现有技术中，在从视频中选择封面时，仅仅关注视频中视频帧的图片质量，造成选择出的封面内容表现力不够。

发明内容

本发明实施例提供了一种视频封面选取方法、装置、存储介质以及电子设备，以至少解决选择的封面内容表现力不够的技术问题。

根据本发明实施例的一个方面，提供了一种视频封面选取方法，包括：获取目标视频中的多帧第一视频帧；识别上述多帧第一视频帧，得到上述多帧第一视频帧中的每一帧第一视频帧的显著图；按照上述显著图的像素占比，从上述多帧第一视频帧中选择出多帧第二视频帧，其中，上述像素占比为上述显著图中有值的像素的数量与上述显著图的像素的总数量的比值；对于每一帧上述第二视频帧，将上述第二视频帧的上述显著图与上述第二视频帧合并，得到一帧目标视频帧；将与多帧上述目标视频帧中图像质量最高的视频帧所对应的第一视频帧作为上述目标视频的封面。

作为一种可选的示例，上述根据多个目标视频帧，确定所述目标视频的封面包括：将多个目标视频帧中，图像质量大于固定阈值，或者图像质量最高或者图像质量位于前I名的目标视频帧对应的第一视频帧作为封面，I为正整数。如果确定出的符合条件的视频帧有多帧，则可以选用其中一张作为封面。

根据本发明实施例的另一方面，提供了一种视频封面选取装置，包括：获取模块，用于获取目标视频中的多帧第一视频帧；识别模块，用于识别上述多帧第一视频帧，得到上述多帧第一视频帧中的每一帧第一视频帧的显著图；第一选择模块，用于按照上述显著图的像素占比，从上述多帧第一视频帧中选择出多帧第二视频帧，其中，上述像素占比为上述显著图中有值的像素的数量与上述显著图的像素的总数量的比值；合并模块，用于对于每一帧上述第二视频帧，将上述第二视频帧的上述显著图与上述第二视频帧合并，得到目标视频帧；第二选择模块，用于根据多个目标视频帧，确定目标视频的封面。

作为一种可选的示例，上述获取模块包括：提取单元，用于从上述目标视频的每一秒的视频帧中，提取出N帧视频帧，其中，上述N为大于零小于M的正整数，上述M为上述目标视频中每一秒的视频帧的数量；第一确定单元，用于将每一秒的上述N帧视频帧确定为上述第一视频帧。

作为一种可选的示例，上述第一选择模块包括：第二确定单元，用于确定上述多帧第一视频帧中，每一帧第一视频帧的上述像素占比；排序单元，用于按照上述像素占比由大到小的顺序，对上述第一视频帧进行排序；第三确定单元，用于将排序结果中的前X个第一视频帧确定为上述第二视频帧。

作为一种可选的示例，上述第二确定单元包括：处理子单元，用于将每一帧上述第一视频帧作为当前视频帧，对上述当前视频帧执行如下操作：统计上述当前视频帧的当前显著图中有值的像素点的第一数量和上述当前显著图中像素的总数量；将上述第一数量和上述总数量的比值确定为上述像素占比。

作为一种可选的示例，上述合并模块包括：屏蔽单元，用于将上述第二视频帧中，上述显著图中像素值为零的像素点屏蔽；第四确定单元，用于将屏蔽后的上述第二视频帧确定为上述目标视频帧。

作为一种可选的示例，上述装置还包括：输入模块，用于将每一帧上述目标视频帧输入到目标评估模型中，其中，上述目标评估模型为使用第一样本数据训练的模型，上述第一样本数据包括第一样本图片和上述第一样本图片的图像质量，上述第一样本图片为将样本视频帧和上述样本视频帧的显著图合并得到的图片。

作为一种可选的示例，上述识别模块包括：输入单元，用于将每一帧上述第一视频帧输入到显著图提取模型中，其中，上述显著图提取模型为使用第二样本数据训练的模型，上述第二样本数据包括第二样本图片和上述第二样本图片的显著图，上述第二样本图片为样本视频帧。

根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被处理器运行时执行上述视频封面选取方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的视频封面选取方法。

在本发明实施例中，采用了获取目标视频中的多帧第一视频帧；识别上述多帧第一视频帧，得到上述多帧第一视频帧中的每一帧第一视频帧的显著图；按照上述显著图的像素占比，从上述多帧第一视频帧中选择出多帧第二视频帧，其中，上述像素占比为上述显著图中有值的像素的数量与上述显著图的像素的总数量的比值；对于每一帧上述第二视频帧，将上述第二视频帧的上述显著图与上述第二视频帧合并，得到目标视频帧；根据多个目标视频帧，确定目标视频的封面的方法，由于在上述方法中，在选择目标视频的封面时，可以从目标视频中选择多帧第一视频帧，然后对于第一视频帧，识别第一视频帧的显著图，接着按照像素占比选择显著图高的第一视频帧作为第二视频帧，从而得到目标视频中内容表现力更强的视频帧（第二视频帧），将第二视频帧与第二视频帧的显著图合并为目标视频帧，选择目标视频帧中图像质量高的视频帧所对应的第一视频帧作为目标视频的封面，起到了选择内容表现力强且图像质量高的视频帧作为目标视频的封面的作用，实现了在保证封面的图像质量的同时，提高选择的封面的内容表现力的目的，进而解决了选择的封面内容表现力不够的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的视频封面选取方法的流程图；

图2是根据本发明实施例的一种可选的视频封面选取方法的系统图；

图3是根据本发明实施例的一种可选的视频封面选取方法的选择第一视频帧的示意图；

图4是根据本发明实施例的一种可选的视频封面选取方法的第一视频帧的示意图；

图5是根据本发明实施例的一种可选的视频封面选取方法的显著图的示意图；

图6是根据本发明实施例的一种可选的视频封面选取方法的组合视频帧的示意图；

图7是根据本发明实施例的一种可选的视频封面选取装置的结构示意图；

图8是根据本发明实施例的一种可选的电子设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的第一方面，提供了一种视频封面选取方法，可选地，如图1所示，上述方法包括：

S102，获取目标视频中的多帧第一视频帧；

S104，识别多帧第一视频帧，得到多帧第一视频帧中的每一帧第一视频帧的显著图；

S106，按照显著图的像素占比，从多帧第一视频帧中选择出多帧第二视频帧，其中，像素占比为显著图中有值的像素的数量与显著图的像素的总数量的比值；

S108，对于每一帧第二视频帧，将第二视频帧的显著图与第二视频帧合并，得到目标视频帧；

S110，根据多个目标视频帧，确定目标视频的封面。

可选地，本实施例中，从目标视频中提取多帧第一视频帧，可以按照比例或者按照预定的间隔提取第一视频帧。可以每一秒提取一帧或者多帧视频帧作为第一视频帧。在得到第一视频帧之后，可以识别每一张第一视频帧，得到每一帧第一视频帧的显著图。

在得到每一帧第一视频帧的显著图之后，可以统计每一张显著图的像素占比，从第一视频帧中选择像素占比高的多帧视频帧作为第二视频帧。本实施例中的像素占比可以为显著图中有值的像素点的数量和该显著图中像素总数的比值。在确定出第二视频帧之后，将第二视频帧与第二视频帧的显著图合并，合并后，得到目标视频帧。

通过对目标视频帧进行质量评价，选择图像质量最高的视频帧锁对应的第一视频帧作为目标视频的封面。

例如，如图2所示，图2中，对于目标视频，提取出视频帧1到视频帧4，提取视频帧1到视频帧4对应的显著图1到显著图4，然后，根据视频帧1到视频帧4的显著图1到显著图4，从视频帧1到视频帧4中确定出第二视频帧，即视频帧1、视频帧4。接着，将视频帧1与显著图1组合为组合视频帧1，将视频帧4与显著图4组合为组合视频帧4，从组合视频帧1与组合视频帧4中选择图像质量最大的视频帧，为组合视频帧1，将组合视频帧1所对应的目标视频中的视频帧1确定为目标视频的封面。

由于在上述方法中，在选择目标视频的封面时，可以从目标视频中选择多帧第一视频帧，然后对于第一视频帧，识别第一视频帧的显著图，接着按照像素占比选择显著图高的第一视频帧作为第二视频帧，从而得到目标视频中内容表现力更强的视频帧（第二视频帧），将第二视频帧与第二视频帧的显著图合并为目标视频帧，从目标视频帧中选择图像质量最高的视频帧作为目标视频的封面，起到了从目标视频的视频帧中，选择内容表现力强且图像质量高的视频帧作为目标视频的封面，实现了在保证封面的图像质量的同时，提高选择的封面的内容表现力的目的。

作为一种可选的示例，上述获取目标视频中的多帧第一视频帧包括：

从目标视频的每一秒的视频帧中，提取出N帧视频帧，其中，N为大于零小于M的正整数，M为目标视频中每一秒的视频帧的数量；

将每一秒的N帧视频帧确定为第一视频帧。

可选地，本实施例中，可以在获取到目标视频之后，从目标视频的每一秒的视频帧中提取多帧视频帧作为第一视频帧。对于每一秒的视频帧，可以每隔多帧提取一帧，例如，每隔3帧提取一帧的视频帧。也可以在每一秒中随机选择多帧视频帧作为第一视频帧。每一秒中选择多少帧视频帧作为第一视频帧可以根据该秒内的视频帧的帧质量确定。帧质量越高，则该秒中第一视频帧的数量可以越多。如图3所示，图3中，目标视频的视频帧302中，每隔4个视频帧提取出一帧视频帧304，将提取的视频帧304作为第一视频帧。

作为一种可选的示例，上述按照显著图的像素占比，从多帧第一视频帧中选择出多帧第二视频帧包括：

确定多帧第一视频帧中，每一帧第一视频帧的像素占比；

按照像素占比由大到小的顺序，对第一视频帧进行排序；

将排序结果中的前X个第一视频帧确定为第二视频帧。

可选地，本实施例中，在确定第二视频帧时，可以确定每一帧第一视频帧的显著图的像素占比。像素占比的高低决定显著图中的内容的丰富程度。像素占比越高，说明显著图对应的第一视频帧中内容丰富度越高。选择像素占比高的显著图对应的第一视频帧作为第二视频帧，则选择出内容更丰富的多帧视频帧。

作为一种可选的示例，上述确定多帧第一视频帧中，每一帧第一视频帧的像素占比包括：

将每一帧第一视频帧作为当前视频帧，对当前视频帧执行如下操作：

统计当前视频帧的当前显著图中有值的像素点的第一数量和当前显著图中像素的总数量；

将第一数量和总数量的比值确定为像素占比。

可选地，本实施例中，对于每一帧第一视频帧，将第一视频帧作为当前视频帧，对于当前视频帧的当前显著图，查看当前显著图中的每一个像素中是否有值。从当前显著图的第一个像素开始，遍历整个当前显著图。每有一个有值的像素，则将当前显著图的第一数量增加1，第一数量初始值为零。当遍历当前显著图后，可以得到当前显著图中的有值的像素的第一数量。而且当前显著图的总像素点数量是已知的，是与第一视频帧一致的。即使像素点总数量未知，经过遍历后，也可以得到像素点的总数量。将第一数量比上总数量，得到当前显著图的像素占比。遍历所有的显著图，得到所有的显著图的像素占比。

作为一种可选的示例，上述对于每一帧第二视频帧，将第二视频帧的显著图与第二视频帧合并，得到一帧目标视频帧包括：

将第二视频帧中，显著图中像素值为零的像素点屏蔽；

将屏蔽后的第二视频帧确定为目标视频帧。

可选地，本实施例中，对于选择出的第二视频帧，第二视频帧的显著图的像素占比高于剩余的第一视频帧。将第二视频帧和第二视频帧的显著图合并，得到目标视频帧。本实施例中，合并可以通过mask操作来合并。

作为一种可选的示例，上述方法还包括：

将每一帧目标视频帧输入到目标评估模型中，其中，目标评估模型为使用第一样本数据训练的模型，第一样本数据包括第一样本图片和第一样本图片的图像质量，第一样本图片为将样本视频帧和样本视频帧的显著图合并得到的图片。

可选地，本实施例中的目标评估模型可以预先使用第一样本数据进行训练。第一样本数据包括了第一样本图片和第一样本图片的图像质量。第一样本图片时将样本视频帧和样本视频帧的显著图合并得到的图片。也就是说，本实施例中，在获取到样本视频帧之后，获取样本视频帧的显著图，将显著图与样本视频帧合并，得到第一样本图片。为第一样本图片配置图像质量。然后，由目标评估模型预测第一样本图片的预测图像质量，如果预测图像质量与第一样本图片的图像质量差异较大，如差异大于第一阈值，则调整目标评估模型的模型参数，直到训练目标模型后，目标模型的识别准确度大于第一识别阈值。目标评估模型可以用于在输入目标视频帧之后，输出目标视频帧的图像质量。选择图像质量最大的视频帧作为封面。

作为一种可选的示例，上述识别多帧第一视频帧，得到多帧第一视频帧中的每一帧第一视频帧的显著图包括：

将每一帧第一视频帧输入到显著图提取模型中，其中，显著图提取模型为使用第二样本数据训练的模型，第二样本数据包括第二样本图片和第二样本图片的显著图，第二样本图片为样本视频帧。

可选地，本实施例中，显著图的获取可以通过显著图提取模型来实现。显著图提取模型为预先使用第二样本数据进行训练得到的模型。第二样本数据包括第二样本图片和第二样本图片的显著图，第二样本图片为样本视频帧。在获取到样本视频帧与样本视频帧的显著图后，将样本视频帧输入到显著图提取模型中，由显著图提取模型来预测样本视频帧的预测显著图，如果预测显著图和样本视频帧的显著图的相似度低于第二阈值，则调整显著图提取模型的模型参数，直到训练的显著图提取模型的预测提取显著图的准确度大于第二识别阈值。使用训练后的显著图提取模型来提取第一视频帧的显著图。

本申请涉及视频的封面选取。其中，涉及有图像质量评价（Image QualityAssessment,IQA）：一项图像处理基本技术，评估图像质量优劣或图像失真程度。可以分为全参考图像质量评价（Full-Reference,FR）、半参考图像质量评价（Reduced-Reference,RR）、无参考图像质量评价（No-Reference,NR）。全参考图像质量评价比较待评图像与参考图像之间的差异，分析待评图像的失真程度。半参考图像质量评价以图像的部分特征信息作为参考对待评图像进行比较分析。无参考图像质量评价没有参考图像，单独对待评图像进行评价、平均主观得分（Mean opinion score，MOS）：指人眼直接对有失真图像评价的得分，数值越大表示图像质量越好以及图像显著性：图像显著性是图像中重要的视觉特征，体现了人眼对图像的某些区域的重视程度。

本申请使用的显著性检测方法为PFA算法,使用的图像质量评价方法为双线性卷积神经网络DBCNN，这两个方法都是基于深度学习的方法。基于深度学习的显著性检测解释可以为给定网络一张图片，让其预测一张显著性图，然后与真实的显著图做比较，越接近真实显著图结果越好。在本实施例中，使用的网络模型都是预先训练的模型。

本实施例中，在获取到视频后，可以对视频进行抽帧得到多张图片，比如1秒可以抽取10帧，这样一个10秒的视频就可以得到100张图像（第一视频帧），图4可以为其中的一张图片的示意图。图4中第一视频帧402中包括了背景404和对象406，利用PFA对这100张图像计算显著性，得到每一张图像的显著图，图5可以为一种显著图的示意图。显著图中，背景502代表值为零的像素点，对象区域504代表值非零的像素点。然后统计每张显著图上有值的像素占全部像素的比值，仅取排名前60%的图片作为第二视频帧，通过这步筛选，不仅能过滤掉那些显著性区域小的图片，且因为过滤掉部分图片，只需要一部分图片再进行图像质量评价即可，这样也能提高视频封面预测的速度。将筛选出的60张第二视频帧的本体和显著图做mask操作，把结果记为s_masked。Mask操作可以理解为将显著图与第二视频帧重叠，将第二视频帧中，显著图的像素值为零的像素点遮住或归零，从而使s_masked中只保留第二视频帧中对应的显著图的像素值非零的部分。图6为一种可选的对图4、5做mask的示意图。图6中背景602的竖线表示将图4中的除了显著图中值非零的像素点之外的像素点遮挡住，让模型识别图6中的对象604而不识别其他区域的内容。

利用DBCNN对这60张s_masked进行质量评价，然后选取得分最高的作为封面，也就是对每张图来说，只对其显著区域进行质量评价，因为人眼对显著区域更敏感，只要显著区域清晰，作为背景的非显著区域哪怕模糊一点，都不会影响视觉上的观感。采用该方法，可以选择出内容丰富且图像质量高的封面。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本申请实施例的另一方面，还提供了一种视频封面选取装置，如图7所示，包括：

获取模块702，用于获取目标视频中的多帧第一视频帧；

识别模块704，用于识别多帧第一视频帧，得到多帧第一视频帧中的每一帧第一视频帧的显著图；

第一选择模块706，用于按照显著图的像素占比，从多帧第一视频帧中选择出多帧第二视频帧，其中，像素占比为显著图中有值的像素的数量与显著图的像素的总数量的比值；

合并模块708，用于对于每一帧第二视频帧，将第二视频帧的显著图与第二视频帧合并，得到目标视频帧；

第二选择模块710，用于根据多个目标视频帧，确定目标视频的封面。

作为一种可选的示例，上述获取模块包括：

提取单元，用于从目标视频的每一秒的视频帧中，提取出N帧视频帧，其中，N为大于零小于M的正整数，M为目标视频中每一秒的视频帧的数量；

第一确定单元，用于将每一秒的N帧视频帧确定为第一视频帧。

作为一种可选的示例，上述第一选择模块包括：

第二确定单元，用于确定多帧第一视频帧中，每一帧第一视频帧的像素占比；

排序单元，用于按照像素占比由大到小的顺序，对第一视频帧进行排序；

第三确定单元，用于将排序结果中的前X个第一视频帧确定为第二视频帧。

作为一种可选的示例，上述第二确定单元包括：

处理子单元，用于将每一帧第一视频帧作为当前视频帧，对当前视频帧执行如下操作：统计当前视频帧的当前显著图中有值的像素点的第一数量和当前显著图中像素的总数量；将第一数量和总数量的比值确定为像素占比。

作为一种可选的示例，上述合并模块包括：

屏蔽单元，用于将第二视频帧中，显著图中像素值为零的像素点屏蔽；

第四确定单元，用于将屏蔽后的第二视频帧确定为目标视频帧。

作为一种可选的示例，上述装置还包括：

输入模块，用于将每一帧目标视频帧输入到目标评估模型中，其中，目标评估模型为使用第一样本数据训练的模型，第一样本数据包括第一样本图片和第一样本图片的图像质量，第一样本图片为将样本视频帧和样本视频帧的显著图合并得到的图片。

作为一种可选的示例，上述识别模块包括：

输入单元，用于将每一帧第一视频帧输入到显著图提取模型中，其中，显著图提取模型为使用第二样本数据训练的模型，第二样本数据包括第二样本图片和第二样本图片的显著图，第二样本图片为样本视频帧。

本实施例的其他示例请参见上述示例，在此不在赘述。

图8是根据本申请实施例的一种可选的电子设备的结构框图，如图8所示，包括处理器802、通信接口804、存储器806和通信总线808，其中，处理器802、通信接口804和存储器806通过通信总线808完成相互间的通信，其中，

存储器806，用于存储计算机程序；

处理器802，用于执行存储器806上所存放的计算机程序时，实现如下步骤：

获取目标视频中的多帧第一视频帧；

识别多帧第一视频帧，得到多帧第一视频帧中的每一帧第一视频帧的显著图；

按照显著图的像素占比，从多帧第一视频帧中选择出多帧第二视频帧，其中，像素占比为显著图中有值的像素的数量与显著图的像素的总数量的比值；

对于每一帧第二视频帧，将第二视频帧的显著图与第二视频帧合并，得到目标视频帧；

根据多个目标视频帧，确定目标视频的封面。

可选地，在本实施例中，上述的通信总线可以是PCI (Peripheral ComponentInterconnect，外设部件互连标准)总线、或EISA (Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM，也可以包括非易失性存储器(non-volatile memory)，例如，至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

作为一种示例，上述存储器806中可以但不限于包括上述请求的处理装置中的获取模块702、识别模块704、第一选择模块706、合并模块708以及第二选择模块710。此外，还可以包括但不限于上述请求的处理装置中的其他模块单元，本示例中不再赘述。

上述处理器可以是通用处理器，可以包含但不限于：CPU (Central ProcessingUnit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP (DigitalSignal Processing，数字信号处理器)、ASIC (Application Specific IntegratedCircuit，专用集成电路)、FPGA (Field－Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图8所示的结构仅为示意，实施上述请求的处理方法的设备可以是终端设备，该终端设备可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌上电脑以及移动互联网设备（Mobile Internet Devices，MID）、PAD等终端设备。图8其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图8中所示更多或者更少的组件（如网络接口、显示装置等），或者具有与图8所示的不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被处理器运行时执行上述视频封面选取方法中的步骤。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频封面选取方法，其特征在于，包括：

获取目标视频中的多帧第一视频帧；

识别所述多帧第一视频帧，得到所述多帧第一视频帧中的每一帧第一视频帧的显著图；

确定所述多帧第一视频帧中，每一帧第一视频帧的像素占比；按照所述像素占比由大到小的顺序，对所述第一视频帧进行排序；将排序结果中的前X个第一视频帧确定为第二视频帧其中，所述像素占比为所述显著图中有值的像素的数量与所述显著图的像素的总数量的比值，所述X为正整数；

对于每一帧所述第二视频帧，将所述第二视频帧的显著图中像素值为零的像素点屏蔽，将屏蔽后的所述显著图与所述第二视频帧合并确定为目标视频帧；

将与多帧所述目标视频帧中图像质量最高的视频帧所对应的第一视频帧作为所述目标视频的封面。

2.根据权利要求1所述的方法，其特征在于，所述获取目标视频中的多帧第一视频帧包括：

从所述目标视频的每一秒的视频帧中，提取出N帧视频帧，其中，所述N为大于零小于M的正整数，所述M为所述目标视频中每一秒的视频帧的数量；

将每一秒的所述N帧视频帧确定为所述第一视频帧。

3.根据权利要求1所述的方法，其特征在于，所述确定所述多帧第一视频帧中，每一帧第一视频帧的所述像素占比包括：

将每一帧所述第一视频帧作为当前视频帧，对所述当前视频帧执行如下操作：

统计所述当前视频帧的当前显著图中有值的像素点的第一数量和所述当前显著图中像素的总数量；

将所述第一数量和所述总数量的比值确定为所述像素占比。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述方法还包括：

将每一帧所述目标视频帧输入到目标评估模型中，其中，所述目标评估模型为使用第一样本数据训练的模型，所述第一样本数据包括第一样本图片和所述第一样本图片的图像质量，所述第一样本图片为将样本视频帧和所述样本视频帧的显著图合并得到的图片。

5.根据权利要求1至3任意一项所述的方法，其特征在于，所述识别所述多帧第一视频帧，得到所述多帧第一视频帧中的每一帧第一视频帧的显著图包括：

将每一帧所述第一视频帧输入到显著图提取模型中，其中，所述显著图提取模型为使用第二样本数据训练的模型，所述第二样本数据包括第二样本图片和所述第二样本图片的显著图，所述第二样本图片为样本视频帧。

6.一种视频封面选取装置，其特征在于，包括：

获取模块，用于获取目标视频中的多帧第一视频帧；

识别模块，用于识别所述多帧第一视频帧，得到所述多帧第一视频帧中的每一帧第一视频帧的显著图；

第一选择模块，包括：第二确定单元，用于确定所述多帧第一视频帧中，每一帧第一视频帧的像素占比；排序单元，用于按照所述像素占比由大到小的顺序，对所述第一视频帧进行排序；第三确定单元，用于将排序结果中的前X个第一视频帧确定为第二视频帧，其中，所述像素占比为所述显著图中有值的像素的数量与所述显著图的像素的总数量的比值，所述X为正整数；

合并模块，用于对于每一帧所述第二视频帧，将所述第二视频帧的显著图中像素值为零的像素点屏蔽，将屏蔽后的所述显著图与所述第二视频帧合并确定为目标视频帧；

第二选择模块，用于将与多帧所述目标视频帧中图像质量最高的视频帧所对应的第一视频帧作为所述目标视频的封面。

7.一种计算机可读的存储介质，所述计算机可读的存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行所述权利要求1至5任一项中所述的方法。

8.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至5任一项中所述的方法。