CN113453055B

CN113453055B - 一种生成视频缩略图的方法、装置和电子设备

Info

Publication number: CN113453055B
Application number: CN202010219904.9A
Authority: CN
Inventors: 陈曦
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2022-12-27
Anticipated expiration: 2040-03-25
Also published as: WO2021190412A1; CN113453055A

Abstract

本申请实施例提供一种生成视频缩略图的方法、装置和电子设备。方法包括：从视频数据中提取多个样本帧；针对每个样本帧进行打分，获取样本帧评分，包括：根据所述样本帧的图像质量量化值计算第一评分；根据所述样本帧的图像内容量化值计算第二评分；根据所述样本帧所对应的关键词与所述视频数据的内容所对应的关键词之间的匹配度计算第三评分；根据所述第一评分、所述第二评分以及所述第三评分计算所述样本帧评分；根据多个所述样本帧中所述样本帧评分最高的样本帧生成视频缩略图。相较于现有技术，根据本申请实施例生成的视频缩略图能够更准确的表达视频数据内容，从而避免误导用户。

Description

一种生成视频缩略图的方法、装置和电子设备

技术领域

本申请涉及智能终端技术领域，特别涉及一种生成视频缩略图的方法、装置和电子设备。

背景技术

在现有技术的应用场景中，在用户浏览视频数据时，为了让用户在播放视频数据之前就直观地了解视频数据的内容，文件系统通常会显示视频数据的视频缩略图。

一般的，文件系统所显示的视频缩略图通常是从该视频数据中挑选出的一帧图像。但是，在很多应用场景中，视频内容与视频帧内容并不是完全等同的，从视频数据中挑选出的视频帧的内容可能与视频内容并不一致。如果将与视频内容并不一致的视频帧作为视频缩略图，不但不能让用户直观地了解视频数据的内容，反而有可能会误导用户。

例如，例如，针对一描述鸟类的视频，视频内容是鸟类。视频中的某一部分片段是描述鸟类的生活环境，该部分片段的视频帧内容是风景图像。如果从整个视频中挑选出一视频帧，那么该视频帧的内容就有可能是风景图像。如果将内容为风景图像的视频帧作为视频缩略图，用户就有可能理解为该视频片段是一段风景视频。

发明内容

针对现有技术中视频缩略图无法准确体现视频数据的内容的问题，本申请提供了一种生成视频缩略图的方法、装置和电子设备，本申请还提供一种计算机可读存储介质。

本申请实施例采用下述技术方案：

第一方面，本申请一实施例提供了一种生成视频缩略图的方法，包括：

从视频数据中提取多个样本帧；

针对每个样本帧进行打分，获取样本帧评分，包括：

基于第一预设算法，根据所述样本帧的图像质量量化值计算第一评分，其中，所述图像质量量化值用于量化描述所述样本帧的整体图像质量；

基于第二预设算法，根据所述样本帧的图像内容量化值计算第二评分，其中，所述图像内容量化值用于量化描述所述样本帧中的单类物体图像；

基于第三预设算法，根据所述样本帧所对应的关键词与所述视频数据的内容所对应的关键词之间的匹配度计算第三评分；

基于第四预设算法，根据所述第一评分、所述第二评分以及所述第三评分计算所述样本帧评分；

根据多个所述样本帧中所述样本帧评分最高的样本帧生成视频缩略图。

基于上述第一方面，在一实现方式中，所述从视频数据中提取多个样本帧，其中，将所述视频数据的每一帧作为所述样本帧。

基于上述第一方面，在一实现方式中，所述第一预设算法包括：

基于第一预设分值计算算法，针对所述样本帧的多个图像属性参数分别计算对应的图像质量量化值，其中，所述图像属性参数包括红绿蓝直方图分布、和/或峰值信噪比、和/或饱和度、和/或对比度；

综合所述多个图像属性参数对应的图像质量量化值，计算所述第一评分。

基于上述第一方面，在一实现方式中，综合所述多个图像属性参数对应的图像质量量化值，计算所述第一评分，其中，对所述多个图像属性参数对应的图像质量量化值求和。

基于上述第一方面，在一实现方式中，所述第二预设算法包括：

对所述样本帧进行物体分类识别，其中，所述物体分类识别的识别结果分类包括人体分类、动物分类以及其他物体分类；

基于第二预设分值计算算法，根据所述物体分类识别的识别结果计算所述物体分类识别识别出的每类物体的物体评分；

综合所述样本帧对应的所有物体评分，计算所述第二评分。

基于上述第一方面，在一实现方式中，计算所述物体分类识别识别出的每类物体的物体评分，包括：

针对所述人体分类，基于预设人体图像打分算法，根据人体图像的多个人体图像参数计算所述人体分类的物体评分，其中，所述人体图像参数包括人体图像在样本帧中的显著程度量化评述值、和/或笑容程度量化评述值、和/或人脸量化评述值、和/或人眼量化评述值、和/或人体完整度量化评述值、和/或人脸完整度量化评述值；

和/或，

针对所述动物分类，基于预设动物图像打分算法，根据动物图像的多个动物图像参数计算所述动物分类的物体评分，其中，所述动物图像参数包括动物图像在样本帧中的显著程度量化评述值、和/或动物眼量化评述值、和/或动物完整度量化评述值；

和/或，

针对所述其他物体分类，基于预设其他物体图像打分算法，根据其他物体图像的多个其他物体图像参数计算所述其他物体分类的物体评分，其中，所述其他物体图像参数包括其他物体图像在样本帧中的显著程度量化评述值、和/或其他物体完整度量化评述值。

基于上述第一方面，在一实现方式中：

根据所述样本帧的图像内容量化值计算第二评分，还包括，基于第三预设分值计算算法，根据所述物体分类识别的识别结果计算所述样本帧的构图评分；

综合所述样本帧对应的所有物体评分，计算所述第二评分，其中，综合所述样本帧对应的所有物体评分以及所述构图评分，计算所述第二评分。

基于上述第一方面，在一实现方式中，计算所述第二评分，其中，采用加权求和计算所述第二评分。

基于上述第一方面，在一实现方式中，所述第三预设算法包括：

对所述样本帧进行内容识别，获取所述样本帧对应的关键词；

综合多个所述样本帧对应的关键词，获取所述视频数据的关键词状态，所述关键词状态包括关键词以及关键词出现频次；

基于第四预设分值计算算法，根据所述样本帧对应的关键词以及所述视频数据的关键词状态计算所述第三评分。

基于上述第一方面，在一实现方式中，所述方法还包括：

将根据所述样本帧评分最高的样本帧所生成视频缩略图作为默认视频缩略图；

根据多个所述样本帧中所述样本帧评分排在第2~n位样本帧生成对应的n-1个备选视频缩略图，n为大于2的整数；

展示所述备选视频缩略图以供用户选择所述备选视频缩略图替换所述默认视频缩略图。

基于上述第一方面，在一实现方式中，所述方法还包括：

根据用户选定的、用于替换所述默认视频缩略图的所述备选视频缩略图，调整所述第二预设算法和/或所述第四预设算法。

第二方面，本申请一实施例提供了一种生成视频缩略图的装置，包括：

样本帧提取模块，其用于从视频数据中提取多个样本帧；

评分计算模块，其用于针对每个样本帧进行打分，获取样本帧评分，所述评分计算模块包括：

第一计算子模块，其用于基于第一预设算法，根据所述样本帧的图像质量量化值计算第一评分，其中，所述图像质量量化值用于量化描述所述样本帧的整体图像质量；

第二计算子模块，其用于基于第二预设算法，根据所述样本帧的图像内容量化值计算第二评分，其中，所述图像内容量化值用于量化描述所述样本帧中的单类物体图像；

第三计算子模块，其用于基于第三预设算法，根据所述样本帧所对应的关键词与所述视频数据的内容所对应的关键词之间的匹配度计算第三评分；

综合计算子模块，其用于基于第四预设算法，根据所述第一评分、所述第二评分以及所述第三评分计算所述样本帧评分；

视频缩略图生成模块，其用于根据多个所述样本帧中所述样本帧评分最高的样本帧生成视频缩略图。

第三方面，本申请一实施例提供了一种电子设备，所述电子设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述电子设备执行如本申请实施例所述的方法步骤。

第四方面，本申请一实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行本申请实施例的方法。

根据本申请实施例所提出的上述技术方案，至少可以实现下述技术效果：根据本申请一实施例的方法，可以生成表达视频数据内容的视频缩略图，从而向用户直观展示视频数据内容；相较于现有技术，根据本申请实施例生成的视频缩略图能够更准确的表达视频数据内容，从而避免误导用户。

附图说明

图1所示为根据本申请生成视频缩略图的方法一实施例的流程图；

图2所示为根据本申请生成视频缩略图的方法一实施例的第二评分计算逻辑架构图；

图3所示为根据本申请生成视频缩略图的方法一实施例的计算逻辑架构图；

图4所示为根据本申请生成视频缩略图的装置一实施例的结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。

针对现有技术中视频缩略图无法体现视频数据的内容的问题，本申请提供了一种生成视频缩略图的方法。为了提出本申请实施例的方法，发明人首先分析实际应用场景中什么样的图像可以表达视频数据的内容。

在实际应用场景中，如果一幅图像要准确表达视频数据的内容，其先决条件之一是该图像的图像质量必须满足用户的阅读需求，如果图像质量不高（例如，图像模糊、图像过亮或过暗），用户无法阅读、无法识别图像内容，那么该图像必然无法准确表达视频数据的内容。

进一步的，在实际应用场景中，视频数据的内容通常与视频数据所描述的物体直接相关。因此，当一幅图像中包含视频数据所描述的物体的准确清晰的物体图像时，该图像就有很大的可能性能够表达视频数据的内容。

进一步的，在实际应用场景中，视频数据的内容通常可以归纳为一个或多个关键词。同时，图像内容通常也可以归纳为一个或多个关键词，如果某一图像所归纳出的关键词与视频数据的内容所归纳出的关键词匹配，那么该图像就可以准确表达视频数据的内容。

基于上述分析，在本申请一实施例中，以视频数据的图像帧为备选源头，基于图像质量、图像所描述的物体以及图像关键词三个方面对图像帧进行综合筛选，从而筛选出准确表达视频数据内容的图像帧，根据筛选出的图像帧来生成视频缩略图。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1所示为根据本申请生成视频缩略图的方法一实施例的流程图。在本申请一实施例中，如图1所示，生成视频缩略图的方法包括：

步骤110，从视频数据中提取多个样本帧；

步骤120，针对每个样本帧进行打分，获取样本帧评分，包括：

步骤121，基于第一预设算法，根据样本帧的图像质量量化值计算第一评分，其中，图像质量量化值用于量化描述样本帧的整体图像质量；

步骤122，基于第二预设算法，根据所述样本帧的图像内容量化值计算第二评分，其中，图像内容量化值用于量化描述样本帧中的单类物体图像；

步骤123，基于第三预设算法，根据样本帧所对应的关键词与视频数据的内容所对应的关键词之间的匹配度计算第三评分；

步骤124，基于第四预设算法，根据第一评分、第二评分以及第三评分计算样本帧评分；

步骤130，根据多个样本帧中样本帧评分最高的样本帧生成视频缩略图。

根据本申请一实施例的方法，可以生成表达视频数据内容的视频缩略图，从而向用户直观展示视频数据内容；相较于现有技术，根据本申请实施例生成的视频缩略图能够更准确的表达视频数据内容，从而避免误导用户。

在步骤110的一种实现方式中，将视频数据的每一帧作为样本帧。进一步的，为了降低数据处理量，在步骤110的另一种实现方式中，按照预设的采样设置从视频数据中提取样本帧，例如，每隔5帧提取一帧作为样本帧。

在步骤121的一种实现方式中，第一预设算法包括：

基于第一预设分值计算算法，分别针对样本帧的多个图像属性参数计算对应的图像质量量化值，其中，图像属性参数包括红绿蓝直方图分布、和/或峰值信噪比、和/或饱和度、和/或对比度；

综合多个图像属性参数对应的图像质量量化值，计算所述第一评分。

进一步的，在步骤121的一种实现方式中，在综合多个图像属性参数对应的图像质量量化值，计算第一评分的过程中，对多个图像属性参数对应的图像质量量化值求和。

具体的，根据步骤121的一种实现方式，在一具体应用场景中，基于第一预设算法，根据样本帧的图像质量量化值计算第一评分，其计分公式为：

；（1）

公式1中，

是第i个图像质量量化值。

例如，图像的清晰度量化值为

；（2）

公式（2）中，

是像素点

处的Laplacian算子的卷积，Laplacian算子为

。（3）

又例如，图像的对比度量化值为

；（4）

公式（4）中，

为相邻像素间灰度差，

为相邻像素间灰度差为

的像素分布概率。

计算图像质量量化值的图像属性参数包括但不限于：图像的清晰度量化值，RGB直方图分布、饱和度、对比度。

进一步的，在步骤122的一种实现方式中，第二预设算法包括：

对样本帧进行物体分类识别；

基于第二预设分值计算算法，根据物体分类识别的识别结果计算物体分类识别识别出的每类物体的物体评分；

综合样本帧对应的所有物体评分，计算第二评分。

具体的，考虑到视频数据所针对的对象大多为人物或者动物，因此，在步骤122的一种实现方式中，物体分类识别的识别结果分类包括人体分类、动物分类以及其他物体分类。

具体的，在步骤122的一种实现方式中，在第二预设算法中，在计算物体分类识别识别出的每类物体的物体评分的过程中，针对人体分类，基于预设人体图像打分算法，根据人体图像的多个人体图像参数计算人体分类的物体评分。

在以人物为主要描述对象的画面中，人物图像在整体画面中的显著程度（例如，人物图像是否足够大、人物图像是否在画面中间）会直接影响该图像是否能够准确体现该人物。因此，在步骤122的一种实现方式中，人体图像参数包括人体图像在样本帧中的显著程度量化评述值，该量化评述值根据人体图像在样本帧中的显著程度计算获取，例如，根据人体图像在样本帧中的占比和/或人体图像与样本帧中心点距离进行量化计算获取人体图像在样本帧中的显著程度量化评述值。

例如，假设图像宽度为w，高度为h，检测出的人体框宽度为bw，高度为bh，则显著程度的量化值P为

。（5）

进一步的，在步骤122的一种实现方式中，人体图像参数包括人体完整度量化评述值，该量化评述值根据人体图像完整程度计算获取，例如，根据人体图像中人体被遮挡部分在完整人体中的占比进行量化计算获取人体完整度量化评述值。

例如，假设检测出的人体框宽度为bw，高度为bh，而图像中该人体的语义分割出的像素区域面积为

，则完整程度可量化为

。（6）

在人体图像中，人脸图像是一个重要内容因素，因此，在步骤122的一种实现方式中，人体图像参数包括人脸量化评述值，该量化评述值根据样本帧中的人脸图像状态参数计算获取，例如，根据样本帧中是否包含人脸图像、和/或样本帧中所包含人脸图像的数量、和/或人脸图像的像素大小、和/或人脸图像的清晰度进行量化计算获取人脸量化评述值。

例如，设宽高为w以及h的图像中检测出大于预设宽高minW和minH的人脸框的个数为N，每个人脸框的大小为

，则人脸显著程度可量化为

。（7）

进一步的，在步骤122的一种实现方式中，人体图像参数包括人脸完整度量化评述值，该量化评述值根据人脸图像完整程度计算获取，例如，根据人脸图像中人脸被遮挡部分在完整人脸中的占比进行量化计算获取人脸完整度量化评述值。

举例，在检测人脸过程中，同时会检测人脸的指定特征点，例如眼睛，鼻子，嘴角，耳朵，下巴等。设特征点的总数数为K，检测出的某个人脸图像中检出的特征点个数为D，则该人脸的完整程度可量化为

。（8）

在人脸图像中，表情状态是人脸图像的一个重要参数，并且，一般的，在各种表情中，带有笑容表情的人脸图像是能够获取最优视觉体验的人脸图像。因此，在步骤122的一种实现方式中，人体图像参数包括笑容程度量化评述值，该量化评述值根据人脸图像表情状态计算获取，例如，根据人脸图像的表情状态是否为笑容（例如，表情状态为笑容赋值为1、表情状态不为笑容赋值为0）和/或人脸图像的的笑容表情的量化分级（例如，微笑为等级1、大笑为等级2）进行量化计算获取笑容程度量化评述值。

例如，笑容检测为人脸检测过程中的一个独立检测单元，其检测结果的置信概率

在

之间。其概率值即可作为笑容检测计算分值。

针对人脸图像中，进行人像视觉分析的一个重要参考因素是人像眼睛。因此，在步骤122的一种实现方式中，人体图像参数包括人眼量化评述值，该量化评述值根据人脸图像中人眼图像的状态计算获取，例如，根据人眼是否被遮挡、和/或人眼图像的像素大小、和/或人眼图像的清晰度进行量化计算获取人眼量化评述值。

例如，在人脸特征点检测时，会对眼睛等关键位置做检测。在对眼部进行评分时，会进一步考虑眼睛的张开程度/眼珠是否在眼睛中央，这些信息由眼部检测模块输出的概率值表示，量化计分为

。（9）

公式（9）中，

分别是左眼和右眼的张开程度，介于0和1之间。

是眼珠在眼睛中间的评分值，也介于0和1之间。

进一步的，在步骤122的一种实现方式中，在第二预设算法中，在计算物体分类识别识别出的每类物体的物体评分的过程中，针对动物分类，基于预设动物图像打分算法，根据动物图像的多个动物图像参数计算动物分类的物体评分。

在步骤122的一种实现方式中，动物图像参数包括动物图像在样本帧中的显著程度量化评述值，该量化评述值根据动物图像在样本帧中的显著程度计算获取，例如，根据动物图像在样本帧中的占比和/或动物图像与样本帧中心点距离进行量化计算获取动物图像在样本帧中的显著程度量化评述值。

例如，采用同人体显著程度评分规则一致的规则。

在步骤122的一种实现方式中，动物图像参数包括动物眼量化评述值，该量化评述值根据动物图像中动物眼图像的状态计算获取，例如，根据动物眼是否被遮挡、和/或动物眼图像的像素大小、和/或动物眼图像的清晰度进行量化计算获取动物眼量化评述值。

例如，采用同人体眼部检测评分规则相似的规则，但只计算眼睛的张开程度。

在步骤122的一种实现方式中，动物图像参数包括动物完整度量化评述值，该量化评述值根据动物图像完整程度计算获取，例如，根据动物图像中动物被遮挡部分在完整动物中的占比进行量化计算获取动物完整度量化评述值。

例如，采用同人体的完整程度计算评分规则一致的规则。

进一步的，在步骤122的一种实现方式中，在第二预设算法中，在计算物体分类识别识别出的每类物体的物体评分的过程中，针对其他物体分类，基于预设其他物体图像打分算法，根据其他物体图像的多个其他物体图像参数计算其他物体分类的物体评分。

在步骤122的一种实现方式中，其他物体图像参数包括其他物体图像在样本帧中的显著程度量化评述值，该量化评述值根据其他物体图像在样本帧中的显著程度计算获取，例如，根据其他物体图像在样本帧中的占比和/或其他物体图像与样本帧中心点距离进行量化计算获取其他物体图像在样本帧中的显著程度量化评述值。

例如，采用与人体和动物类似的规则。仅在计算总分时权重上有区别。

在步骤122的一种实现方式中，其他物体图像参数包括其他物体完整度量化评述值，该量化评述值根据其他物体图像完整程度计算获取，例如，根据其他物体图像中其他物体被遮挡部分在完整其他物体中的占比进行量化计算获取其他物体完整度量化评述值。

进一步的，在步骤122的一种实现方式中，根据样本帧的图像内容量化值计算第二评分，还包括，基于第三预设分值计算算法，根据物体分类识别的识别结果计算样本帧的构图评分。在综合所述样本帧对应的所有物体评分，计算所述第二评分的过程中，综合样本帧对应的所有物体评分以及构图评分，计算第二评分。

例如，构图评分为基于一种神经网络的自动评分模块。网络采用图像内容分割的结果作为输入，以人工标注的评分值作为输出，对网络进行训练。训练好的网络会根据图像内容分割结果，输出该图像的评分值

。

具体的，在步骤122的一种实现方式中，在计算第二评分的过程中，采用加权求和计算第二评分。

进一步的，在步骤122的一种实现方式中，基于目标识别与语义分割网络实现对样本帧进行物体分类识别。

图2所示为根据本申请生成视频缩略图的方法一实施例的第二评分计算逻辑架构图。如图2所示，在步骤122的一种实现方式中，使用目标识别与语义分割网络210对样本帧进行物体分类识别，物体分类识别结果为人体分类、动物分类以及其他物体分类。

使用人体检测模块220对目标识别与语义分割网络210的分类识别结果中的人体分类进行物体评分计算，人体检测模块220包括：

显著程度模块221，计算人体图像在样本帧中的显著程度量化评述值；

笑容检测模块222，计算笑容程度量化评述值；

人脸检测模块223，计算人脸量化评述值；

眼睛检测模块224，计算人眼量化评述值；

人体及人脸完整程度模块225，计算人体完整度量化评述值以及人脸完整度量化评述值。

使用动物检测模块230对目标识别与语义分割网络210的分类识别结果中的动物分类进行物体评分计算，动物检测模块230包括：

显著程度模块231，计算动物图像在样本帧中的显著程度量化评述值；

眼睛检测模块232，计算动物眼量化评述值；

完整程度233，计算动物完整度量化评述值。

使用其他物体模块240对目标识别与语义分割网络210的分类识别结果中的其他物体分类进行物体评分计算，其他物体模块240包括：

显著程度241，计算其他物体图像在样本帧中的显著程度量化评述值；

完整程度242，计算其他物体完整度量化评述值。

使用构图评分模块250对目标识别与语义分割网络210的分类识别结果进行构图评分；

使用主观项计分模块260综合人体检测模块220、动物检测模块230以及其他物体模块240的物体评分计算结果以及构图评分模块250的构图评分结果，计算样本帧的第二评分。

基于上述图2所示的计算模块架构，使用人体检测模块220、动物检测模块230以及其他物体模块240，分别针对人体分类、动物分类以及其他物体分类分别获取一个0~1之间的值

作为物体评分。每项物体评分拥有一个权重

，最终第二评分合计为：

；（10）

在公式（10）中，权重

的具体取值由样本训练获取，并且，权重

的具体取值在训练过程中自适应调整。

例如，权重的初始取值可以是人体1，动物0.7，物体0.4。

进一步的，在实际应用场景中，对一个视频帧进行图像内容识别，可以归纳提取一个或多个关键词。由于视频帧内容与视频内容并不是完全等同的，因此，对一个视频帧进行图像内容识别所归纳提取出的关键词并不一定是视频内容所对应的关键词。然而，在一个视频中，如果多个视频帧都可以归纳提取出同一个关键词，那么该关键词就有很大的可能性是视频内容对应的关键词。例如，针对某1000帧的视频片段，如果视频片段中900个视频帧都可以归纳提取出“鸟”这个关键词，那么就相当于该视频片段有十分之九的部分在描述“鸟”，此时，该视频片段的内容所对应的关键词就有极大可能性包含“鸟”这个关键词。因此，基于上述分析，在本申请一实施例中，将所有样本帧对应的关键词的集合作为视频数据的备选关键词，通过统一关键词在所有样本帧中的出现次数来量化标定该关键词作为视频内容所对应的关键词的可能性。通过量化计算某一视频帧所对应的关键词作为视频内容所对应的关键词的可能性来计算样本帧所对应的关键词与视频数据的内容所对应的关键词之间的匹配度，视频帧所对应的关键词作为视频内容所对应的关键词的可能性越大，样本帧所对应的关键词与视频数据的内容所对应的关键词之间的匹配度越高。

具体的，在步骤123的一种实现方式中，第三预设算法包括：

对样本帧进行内容识别，获取样本帧对应的关键词；

综合多个样本帧对应的关键词，获取视频数据的关键词状态，关键词状态包括关键词及其对应的出现频次；

基于第四预设分值计算算法，根据样本帧对应的关键词以及视频数据的关键词状态计算第三评分。

具体的，在步骤123的一种实现方式中，对样本帧进行内容识别，获取样本帧对应的关键词，例如，针对每个样本帧获取2~10个图像关键词，例如某一样本帧的关键词为【人物A，人物B，蛋糕，蜡烛，鼓掌】；综合多个样本帧对应的关键词，即得到了一个关键字词典记录了关键词以及关键词出现的频次。进一步的，第四预设分值计算算法包括下述计算流程。

对所有关键词按出现次数计算关键词的权重

，即

；（11）

公式（11）中：

表示第i个关键词出现的次数，N表示所有不重复关键词的个数。

例如，设视频共有3帧。第一帧检出的关键词为<人物A，人物B，蛋糕>，第二帧检出的关键词为<人物A，人物B，蛋糕，蜡烛>，第三帧检出的关键词为<人物A，人物B，酒杯 >。则共计出现了10次关键词，其中<人物A>的频次是3，则其权重为3/10；<人物B>的频次是3，其权重也为3/10；<蛋糕>权重为2/10，<蜡烛>权重1/10，<酒杯>权重1/10。

根据

，计算得到每个样本帧的第三评分：

；（12）

公式（12）中：j为样本帧包含的第j个关键词的索引，M为样本帧包含的关键词个数，若M=0，则S_a=0。

接上例，根据公式（12），可计算得到第一帧的统计评分为0.3+0.3+0.2=0.8，第二帧的评分为0.3+0.3+0.2+0.1=0.9，第三帧的评分为0.3+0.3+0.1=0.7。

进一步的，在步骤124的一种实现方式中，采用加权求和方式计算样本帧评分。具体的，根据第一评分、第二评分以及第三评分，可以综合得到样本帧的样本帧评分S_f为：

；（13）

公式（13）中：So、Ss、Sa分别为第一评分、第二评分以及第三评分；λo、λs、λa分别为第一评分、第二评分以及第三评分的权重。

进一步的，在步骤124的一种实现方式中，第一评分、第二评分以及第三评分的权重在训练过程中确定。

进一步的，在步骤130的一种实现方式中，在根据样本帧评分最高的样本帧所生成视频缩略图的过程中，直接将筛选出的样本帧作为视频缩略图。在步骤130的另一种实现方式中，在根据样本帧评分最高的样本帧所生成视频缩略图的过程中，基于视频缩略图的系统格式设定，对筛选出的视频帧进行图像处理（例如，放大或缩小、裁边等），将筛选出的视频帧转化为系统设定的视频缩略图格式。

进一步的，为了适应用户偏好，在本申请一实施例中，步骤130之后，方法还包括：

将根据样本帧评分最高的样本帧所生成视频缩略图作为默认视频缩略图；

根据多个样本帧中样本帧评分排在第2~n位样本帧生成对应的n-1个备选视频缩略图；

展示备选视频缩略图以供用户选择备选视频缩略图替换默认视频缩略图。

具体的，在一应用场景中，系统将方案选出的样本帧评分最高的样本帧作为默认视频缩略图的同时，将样本帧评分排名2~4名的样本帧通过弹窗显示给用户并提示用户是否需要更改系统选出的默认视频缩略图。

进一步的，在本申请一实施例中，在用户选择备选视频缩略图替换默认视频缩略图时，根据用户选定的备选视频缩略图对筛选视频帧的算法进行调整。具体的，在本申请一实施例中，步骤130之后，方法还包括：根据用户选定的、用于替换默认视频缩略图的备选视频缩略图，调整第二预设算法和/或第四预设算法。具体的，在调整第二预设算法和/或第三预设算法的过程中，调整公式（10）和/或公式（13）中的权重设置。

例如，若用户选择的备选缩略图，其第一评分相比系统推荐的缩略图较高。则可推测用户更偏好图像质量，因此，可以适当提高公式（13）中

的权重。

图3所示为根据本申请生成视频缩略图的方法一实施例的计算逻辑架构图。如图3所示，计算系统输入量为视频帧输入流300。

使用图像客观质量评分模块301对视频帧输入流300中每个视频帧计算第一评分。

使用目标识别与语义分割网络310对视频帧输入流300中每个视频帧进行物体分类识别，物体分类识别结果为人体分类、动物分类以及其他物体分类。

使用人体检测模块320对目标识别与语义分割网络310的分类识别结果中的人体分类进行物体评分计算，人体检测模块320包括：

显著程度模块321，计算人体图像在样本帧中的显著程度量化评述值；

笑容检测模块322，计算笑容程度量化评述值；

人脸检测模块323，计算人脸量化评述值；

眼睛检测模块324，计算人眼量化评述值；

人体及人脸完整程度模块325，计算人体完整度量化评述值以及人脸完整度量化评述值。

使用动物检测模块330对目标识别与语义分割网络310的分类识别结果中的动物分类进行物体评分计算，动物检测模块330包括：

显著程度模块331，计算动物图像在样本帧中的显著程度量化评述值；

眼睛检测模块332，计算动物眼量化评述值；

完整程度333，计算动物完整度量化评述值。

使用其他物体模块340对目标识别与语义分割网络310的分类识别结果中的其他物体分类进行物体评分计算，其他物体模块340包括：

显著程度341，计算其他物体图像在样本帧中的显著程度量化评述值；

完整程度342，计算其他物体完整度量化评述值。

使用构图评分模块350对目标识别与语义分割网络310的分类识别结果进行构图评分；

使用主观项计分模块360综合人体检测模块320、动物检测模块330、其他物体模块340的物体评分计算结果以及构图评分模块350的构图评分结果，计算视频帧输入流300中每个视频帧的第二评分。

使用关键词统计得分模块370对目标识别与语义分割网络310的分类识别结果进行关键词统计计算，计算视频帧输入流300中每个视频帧的第三评分。

使用总分计算模块380对图像客观质量评分模块301、主观项计分模块360以及关键词统计得分模块370的计算结果进行综合计算，计算视频帧输入流300中每个视频帧的样本帧评分。

根据总分计算模块380的计算结果选取默认视频缩略图和/或备选视频缩略图。

根据用户对总分计算模块380的反馈，调整目标识别与语义分割网络310的计算参数。

进一步的，基于本申请一实施例中提出的生成视频缩略图的方法，本申请一实施例还提出了一种生成视频缩略图的装置。图4所示为根据本申请生成视频缩略图的装置一实施例的结构图。在本申请一实施例中，如图4所示，在本申请一实施例中，生成视频缩略图的装置包括：

样本帧提取模块410，其用于从视频数据中提取多个样本帧；

评分计算模块420，其用于针对每个样本帧进行打分，获取样本帧评分，所述评分计算模块包括：

第一计算子模块421，其用于基于第一预设算法，根据所述样本帧的图像质量量化值计算第一评分，其中，所述图像质量量化值用于量化描述所述样本帧的整体图像质量；

第二计算子模块422，其用于基于第二预设算法，根据所述样本帧的图像内容量化值计算第二评分，其中，所述图像内容量化值用于量化描述所述样本帧中的单类物体图像；

第三计算子模块423，其用于基于第三预设算法，根据所述样本帧所对应的关键词与所述视频数据的内容所对应的关键词之间的匹配度计算第三评分；

综合计算子模块424，其用于基于第四预设算法，根据所述第一评分、所述第二评分以及所述第三评分计算所述样本帧评分；

视频缩略图生成模块430，其用于根据多个所述样本帧中所述样本帧评分最高的样本帧生成视频缩略图。

图4所示的本申请一实施例提供的装置可用于执行本申请实施例的方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

进一步的，在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（FieldProgrammable Gate Array，FPGA））就是这样一种集成电路，其逻辑功能由访问方对器件编程来确定。由设计人员自行编程来把一个数字装置“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera HardwareDescription Language）、Confluence、CUPL（Cornell University ProgrammingLanguage）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（Ruby Hardware Description Language）等，目前最普遍使用的是VHDL（Very-High-Speed Integrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

在本申请实施例的描述中，为了描述的方便，描述装置时以功能分为各种模块/单元分别描述，各个模块/单元的划分仅仅是一种逻辑功能的划分，在实施本申请实施例时可以把各模块/单元的功能在同一个或多个软件和/或硬件中实现。

具体的，本申请实施例所提出的装置在实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块以软件通过处理元件调用的形式实现，部分模块通过硬件的形式实现。例如，检测模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路（Application Specific Integrated Circuit，ASIC），或，一个或多个数字信号处理器（Digital Singnal Processor，DSP），或，一个或者多个现场可编程门阵列（Field Programmable Gate Array，FPGA）等。再如，这些模块可以集成在一起，以片上装置（System-On-a-Chip，SOC）的形式实现。

本申请一实施例还提出了一种电子设备，电子设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发电子设备执行如本申请实施例所述的方法步骤。

具体的，在本申请一实施例中，上述一个或多个计算机程序被存储在上述存储器中，上述一个或多个计算机程序包括指令，当上述指令被上述设备执行时，使得上述设备执行本申请实施例所述的方法步骤。

具体的，在本申请一实施例中，电子设备的处理器可以是片上装置SOC，该处理器中可以包括中央处理器（Central Processing Unit，CPU），还可以进一步包括其他类型的处理器。具体的，在本申请一实施例中，电子设备的处理器可以是PWM控制芯片。

具体的，在本申请一实施例中，涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器（Neural-network Process Units，NPU）和图像信号处理器（Image Signal Processing，ISP），该处理器还可包括必要的硬件加速器或逻辑处理硬件电路，如ASIC，或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储介质中。

具体的，在本申请一实施例中，电子设备的存储器可以是只读存储器（read-onlymemory，ROM）、可存储静态信息和指令的其它类型的静态存储设备、随机存取存储器（random access memory，RAM)或可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器（electrically erasable programmable read-only memory，EEPROM）、只读光盘（compact disc read-only memory，CD-ROM）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其它磁存储设备，或者还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何计算机可读介质。

具体的，在本申请一实施例中，处理器可以和存储器可以合成一个处理装置，更常见的是彼此独立的部件，处理器用于执行存储器中存储的程序代码来实现本申请实施例所述方法。具体实现时，该存储器也可以集成在处理器中，或者，独立于处理器。

进一步的，本申请实施例阐明的设备、装置、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。

本领域内的技术人员应明白，本申请实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

在本申请所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。

具体的，本申请一实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行本申请实施例提供的方法。

本申请一实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，当其在计算机上运行时，使得计算机执行本申请实施例提供的方法。

本申请中的实施例描述是参照根据本申请实施例的方法、设备（装置）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本申请实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以意识到，本申请实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本申请的具体实施方式，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种生成视频缩略图的方法，其特征在于，包括：

从视频数据中提取多个样本帧；

针对每个样本帧进行打分，获取样本帧评分，包括：

基于第二预设算法，根据所述样本帧的图像内容量化值计算第二评分，其中，所述图像内容量化值用于量化描述所述样本帧中的单类物体图像；所述第二预设算法包括：

对所述样本帧进行物体分类识别，其中，所述物体分类识别的识别结果分类包括人体分类、动物分类以及其他物体分类；基于第二预设分值计算算法，根据所述物体分类识别的识别结果计算所述物体分类识别识别出的每类物体的物体评分；包括：针对所述人体分类，基于预设人体图像打分算法，根据人体图像的人体图像参数计算所述人体分类的物体评分，其中，所述人体图像参数包括人体图像在样本帧中的显著程度量化评述值、和/或笑容程度量化评述值、和/或人脸量化评述值、和/或人眼量化评述值、和/或人体完整度量化评述值；和/或，针对所述动物分类，基于预设动物图像打分算法，根据动物图像的动物图像参数计算所述动物分类的物体评分，其中，所述动物图像参数包括动物图像在样本帧中的显著程度量化评述值、和/或动物眼量化评述值、和/或动物完整度量化评述值；和/或，针对所述其他物体分类，基于预设其他物体图像打分算法，根据其他物体图像的其他物体图像参数计算所述其他物体分类的物体评分，其中，所述其他物体图像参数包括其他物体图像在样本帧中的显著程度量化评述值、和/或其他物体完整度量化评述值；综合所述样本帧对应的所有物体评分，计算所述第二评分；基于第三预设算法，根据所述样本帧所对应的关键词与所述视频数据的内容所对应的关键词之间的匹配度计算第三评分；

2.根据权利要求1所述的方法，其特征在于，所述从视频数据中提取多个样本帧，其中，将所述视频数据的每一帧作为所述样本帧。

3.根据权利要求1所述的方法，其特征在于，所述第一预设算法包括：

4.根据权利要求3所述的方法，其特征在于，综合所述多个图像属性参数对应的图像质量量化值，计算所述第一评分，其中，对所述多个图像属性参数对应的图像质量量化值求和。

5.根据权利要求1所述的方法，其特征在于：

6.根据权利要求1所述的方法，其特征在于，计算所述第二评分，其中，采用加权求和计算所述第二评分。

7.根据权利要求1~6中任一项所述的方法，其特征在于，所述第三预设算法包括：

8.根据权利要求1~6中任一项所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.一种生成视频缩略图的装置，其特征在于，包括：

样本帧提取模块，其用于从视频数据中提取多个样本帧；

第二计算子模块，其用于基于第二预设算法，根据所述样本帧的图像内容量化值计算第二评分，其中，所述图像内容量化值用于量化描述所述样本帧中的单类物体图像；所述第二预设算法包括：

对所述样本帧进行物体分类识别，其中，所述物体分类识别的识别结果分类包括人体分类、动物分类以及其他物体分类；基于第二预设分值计算算法，根据所述物体分类识别的识别结果计算所述物体分类识别识别出的每类物体的物体评分；包括：针对所述人体分类，基于预设人体图像打分算法，根据人体图像的人体图像参数计算所述人体分类的物体评分，其中，所述人体图像参数包括人体图像在样本帧中的显著程度量化评述值、和/或笑容程度量化评述值、和/或人脸量化评述值、和/或人眼量化评述值、和/或人体完整度量化评述值；和/或，针对所述动物分类，基于预设动物图像打分算法，根据动物图像的动物图像参数计算所述动物分类的物体评分，其中，所述动物图像参数包括动物图像在样本帧中的显著程度量化评述值、和/或动物眼量化评述值、和/或动物完整度量化评述值；和/或，针对所述其他物体分类，基于预设其他物体图像打分算法，根据其他物体图像的其他物体图像参数计算所述其他物体分类的物体评分，其中，所述其他物体图像参数包括其他物体图像在样本帧中的显著程度量化评述值、和/或其他物体完整度量化评述值；综合所述样本帧对应的所有物体评分，计算所述第二评分；

11.一种电子设备，其特征在于，所述电子设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述电子设备执行如权利要求1~9中任一项所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-9任一项所述的方法。