CN108882057B

CN108882057B - 视频摘要生成方法及装置

Info

Publication number: CN108882057B
Application number: CN201710322600.3A
Authority: CN
Inventors: 沙安澜; 张志强
Original assignee: Beijing Xiaodu Mutual Entertainment Technology Co ltd
Current assignee: Beijing Xiaodu Mutual Entertainment Technology Co ltd
Priority date: 2017-05-09
Filing date: 2017-05-09
Publication date: 2021-08-17
Anticipated expiration: 2037-05-09
Also published as: CN108882057A

Abstract

本发明提出一种视频摘要生成方法及装置，其中，该视频摘要生成方法包括：获取待处理视频；对待处理视频进行切分，以生成待处理视频的序列视频帧；提取序列视频帧中每个视频帧的视频帧特征信息；根据每个视频帧的视频帧特征信息从序列视频帧中提取关键帧；根据关键帧生成待处理视频的视频摘要信息。由此，提出了一种可根据视频帧特征信息自动生成视频摘要信息的方法，减少了生成视频摘要信息所需要的成本，且提高了生成视频的视频摘要信息的效率。

Description

视频摘要生成方法及装置

技术领域

本发明涉及视频处理技术领域，特别涉及一种视频摘要生成方法及装置。

背景技术

视频摘要又称为视频浓缩，是对原始视频主要内容的概括。随着人们对视频数据处理的要求不断提高和视频数据量的不断增多，例如，在影视娱乐领域，各类视频作品往往时长较长，内容较丰富，视频摘要对于想要短时间快速了解视频内容而言有很大应用前景。

相关技术中，通常通过人工编辑原视频的方式生成原视频的视频摘要，或者通过一些视频摘要生成技术生成原视频的视频摘要，例如，基于颜色、音量等底层视频特征生成视频摘要、基于故事场景生成视频摘要、基于精彩场景生成视频摘要等方式，其中，基于人工编辑生成原视频的视频摘要的一般过程为：人工对原视频进行分析，并从原视频中提取出包含了原视频的主要内容的若干视频帧，然后，基于若干视频帧生成原视频的视频摘要。然而，在实现本发明的过程中发明人发现相关技术至少存在以下问题：(1)人工获取原始视频的视频摘要的方式而言，随着视频数据量的不断增多，这种采取人工获取原始视频的视频摘要的方式，生成视频摘要所需要的时间较长，生成视频摘要的效率较低，且生成视频摘要的成本较高。(2)上述基于颜色、音量等底层视频特征生成视频摘要、基于故事场景生成视频摘要、基于精彩场景生成视频摘要等方式所使用的场景有限，应用范围有限。

发明内容

本发明旨在至少在一定程度上解决上述技术问题。

为此，本发明的第一个目的在于提出一种视频摘要生成方法，提出了一种可根据视频帧特征信息自动生成视频摘要信息的方法，减少了生成视频摘要信息所需要的成本，且提高了生成视频的视频摘要信息的效率。

本发明的第二个目的在于提出一种视频摘要生成装置。

本发明的第三个目的在于提出一种视频摘要生成装置。

本发明的第四个目的在于提出一种非易失性计算机存储介质。

为达上述目的，根据本发明第一方面实施例提出了一种视频摘要生成方法，包括以下步骤：获取待处理视频；对所述待处理视频进行切分，以生成所述待处理视频的序列视频帧；提取所述序列视频帧中每个视频帧的视频帧特征信息；根据每个视频帧的视频帧特征信息从所述序列视频帧中提取关键帧；根据所述关键帧生成所述待处理视频的视频摘要信息。

根据本发明实施例的视频摘要生成方法，对待处理视频进行切分，以生成待处理视频的序列视频帧，以及提取序列视频帧中每个视频帧的视频帧特征信息，然后，根据每个视频帧的视频帧特征信息从序列视频帧中提取关键帧，以及根据关键帧生成待处理视频的视频摘要信息。由此，提出了一种可根据视频帧特征信息自动生成视频摘要信息的方法，减少了生成视频摘要信息所需要的成本，且提高了生成视频的视频摘要信息的效率。

为达上述目的，本发明第二方面实施例提出了一种视频摘要生成装置，包括：获取模块，用于获取待处理视频；切分模块，用于对所述待处理视频进行切分，以生成所述待处理视频的序列视频帧；第一提取模块，用于提取所述序列视频帧中每个视频帧的视频帧特征信息；第二提取模块，用于根据每个视频帧的视频帧特征信息从所述序列视频帧中提取关键帧；生成模块，用于根据所述关键帧生成所述待处理视频的视频摘要信息。

根据本发明实施例的视频摘要生成装置，对待处理视频进行切分，以生成待处理视频的序列视频帧，以及提取序列视频帧中每个视频帧的视频帧特征信息，然后，根据每个视频帧的视频帧特征信息从序列视频帧中提取关键帧，以及根据关键帧生成待处理视频的视频摘要信息。由此，提出了一种可根据视频帧特征信息自动生成视频摘要信息的方法，减少了生成视频摘要信息所需要的成本，且提高了生成视频的视频摘要信息的效率。

为达上述目的，本发明第三方面实施例提出了一种视频摘要生成装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：获取待处理视频；对所述待处理视频进行切分，以生成所述待处理视频的序列视频帧；提取所述序列视频帧中每个视频帧的视频帧特征信息；根据每个视频帧的视频帧特征信息从所述序列视频帧中提取关键帧；根据所述关键帧生成所述待处理视频的视频摘要信息。

为达上述目的，本发明第三方面实施例提出了一种非易失性计算机存储介质，所述计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备执行本发明第一方面实施例的视频摘要生成方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的视频摘要生成方法的流程图；

图2为包含标记人脸区域的当前视频帧的示例图；

图3为根据本发明另一个实施例的视频摘要生成方法的流程图；

图4为根据本发明一个实施例的视频摘要生成装置的结构示意图；

图5为根据本发明另一个实施例的视频摘要生成装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“多个”指两个或两个以上；术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

下面参考附图描述根据本发明实施例的视频摘要生成方法及装置。

图1为根据本发明一个实施例的视频摘要生成方法的流程图。

如图1所示，根据本发明实施例的视频摘要生成方法，包括以下步骤。

S11，获取待处理视频。

S12，对待处理视频进行切分，以生成待处理视频的序列视频帧。

作为一种示例性的实施方式，在接收到用户发送包含待处理视频的视频摘要生成请求后，可将待处理视频按照每秒预设帧数进行切分，例如，可通过解码器将待处理视频按照每秒预设帧数进行切分，以生出待处理视频的序列视频帧。

其中，预设帧数可以是系统中预先设置的帧数，也可以是用户根据需求预先设置的帧数，例如，预设帧数可以为2，即，可通过解码器将待处理视频按照每秒两帧进行切分，以生成待处理视频的序列视频帧。

其中，需要理解的是，序列视频帧中包括多个视频帧，每个视频帧均具有自己的编号，且其编号是唯一的。

S13，提取序列视频帧中每个视频帧的视频帧特征信息。

其中，该实施例中的视频帧特征信息可以包括视频帧内特征信息和视频帧间特征信息。

其中，视频帧内特征信息包括人脸特征信息和字幕信息。

通常对于视频资源而言，用户对人物的关注程度，因此，为了向用户提供感兴趣的视频摘要，可提取序列视频帧中每个视频帧的人脸特征信息。

在本发明的一个实施例中，在视频帧内特征信息包括人脸特征信息时，提取序列视频帧中每个视频帧的人脸特征信息的过程为：针对每个视频帧，通过预先训练的人脸检测模型确定当前视频帧是否包含人脸，若确定当前视频帧包含人脸，则通过人脸检测模型确定当前视频帧中的人脸区域。

也就是说，针对每个视频帧，在将当前视频帧输入至人脸检测模型后，人脸检测模型对当前视频帧进行人脸检测，如果在当前视频帧中检测到人脸时，通过人脸检测模型确定出当前视频帧中人脸的人脸区域。

其中，需要理解的是，在确定当前视频帧包含人脸时，当前视频帧中可以包括至少一个人脸，人脸检测模型可以确定出当前视频帧中所有人脸的人脸区域，即，人脸检测模型可以确定出当前视频帧中每个人脸的人脸区域。

其中，人脸区域表示当前视频帧中人脸所在的区域。

举例而言，可通过[Xi,Yi,Wi,Hi]四元组表示人脸位置信息，通过这四元组即可确定人脸区域，其中，Xi表示当前视频帧中第i个人脸的横坐标；Yi表示当前视频帧中第i个人脸的纵坐标；Wi表示当前视频帧中第i个人脸的宽度；Hi表示当前视频帧中第i个人脸的高度。

当然，为了准确描述人脸位置，还可以通过Xi,Yi,Wi,Hi确定出人脸中心坐标，例如，用MXi表示人脸中心坐标的横坐标，MYi表示人脸中心坐标的纵坐标，其中，MXi＝i+Wi*0.5，MYi＝Yi+Hi*0.5。这样，就可以通过上述Xi,Yi,Wi,Hi，MXi，MYi六个元素即可准确描述人脸位置信息。

举例而言，在将当前视频帧输入预先训练的人脸检测模型后，人脸检测模型可确定当前视频帧包含人脸，且确定出当前视频帧人脸区域，其中，标记人脸区域的当前视频帧的示例图，如图2所示，其中，在实际应用中，可通过带有颜色的矩形框标记人脸区域，在实际应用中图2中可用草绿色的矩形框标记人脸区域。

其中，上述人脸检测模型是基于大量训练样本数据训练而来的。

其中，需要说明的是，为了准确训练人脸检测模型，可通过人工方式预先选择一批包含人脸的优质帧作为训练样本数据。

作为一种示例性的实施方式，在对待处理视频进行切分，以生成待处理视频的序列视频帧后，针对序列视频帧中的每个视频帧，将当前视频帧输入人脸检测模型，人脸检测模型分析当前视频帧中的兴趣区域中进行人脸检测，如果检测到兴趣区域中检测到人脸，则可通过人脸检测模型确定出当前视频帧中人脸的人脸区域，即，确定出人脸的人脸位置信息，其中，需要说明的是，当前视频帧可以包括一个或者多个人脸，在当前视频帧包含多个人脸时，人脸检测模型可确定出每个人脸的人脸位置信息。

在本发明的一个实施例中，在视频帧内特征信息包括字幕信息时，提取序列视频帧中每个视频帧的字幕信息的过程为：针对每个视频帧，确定当前视频帧的字幕区域，然后，对字幕区域进行OCR识别处理，以生成OCR识别结果，以及根据OCR识别结果判断当前视频帧中是否包含字幕信息。具体而言，针对每个视频帧，确定当前视频帧的字幕区域，然后，对字幕区域进行OCR识别处理，以生成OCR识别结果，然后，根据OCR识别结果确定当前视频帧中的字幕特征信息。

其中，字幕特征信息包括字幕词数和/或字幕平均词频。

在获取当前视频帧中的字幕特征信息后，可进一步判断当前视频帧中的字幕特征信息是否满足预设条件。

其中，字幕特征信息满足预设条件包括字幕词数大于第一预设阈值，和/或，字幕平均词频大于第二预设阈值。

其中，第一预设阈值是预先设置的字幕词数的阈值。

其中，第二预设阈值是预先设置的字幕平均词频的阈值。

如果当前视频帧中的字幕特征信息满足预设条件，则确定当前视频证包含字幕信息。

举例而言，在字幕特征信息包括字幕词数和字幕平均词频时，针对当前视频帧可将当前示例帧下发1/4部分作为字幕区域，然后，对字幕区域进行预处理，将字幕区域中的彩色图片转换为二值图，然后，对二值图进行OCR(Optical Character Recognition，光学字符识别)文字识别。在进行初次识别之后，对识别后的字幕信息要进行过滤处理，去除错误识别的结果。然后，通过中分分词技术对于去除错误识别后的结果进行切词，统计该字幕词数，并通过预先下载的中文语料中各词语的词频，计算该字幕平均词频。然后，判断字幕词数是否大于第一预设阈值，以及判断字幕平均词频是否大于第二预设阈值，若字幕词数大于第一预设阈值，且字幕平均词频大于第二预设阈值，则判定该视频帧含有字幕信息。

其中，视频帧间特征信息包括视频帧间相似度特征信息。

其中，作为一种示例，视频帧间相似度特征信息可以为视频帧间的直方图相似图。

举例而言，针对每个视频帧，可计算当前视频帧与前一视频帧之间的直方图相似度。

S14，根据每个视频帧的视频帧特征信息从序列视频帧中提取关键帧。

在本发明的一个实施例中，在获取每个视频帧的视频帧特征信息后，可根据每个视频帧的视频帧内特征信息从序列视频帧中确定出多个待选关键帧，然后，根据待选关键帧的视频帧间特征信息对多个待选关键帧进行聚类处理，以生成待选关键帧组，之后，针对每个待选关键帧组，根据每个待选关键帧组中待选关键帧的人脸特征信息分别确定每个待选关键帧组的关键帧。

作为一种示例性的实施方式，在视频帧内特征信息包括人脸特征信息时，针对每个视频帧，在通过人脸检测模型确定当前视频帧中的人脸区域后，可确定人脸区域的清晰度，判断人脸区域的清晰度是否大于预设清晰度阈值，若判断人脸区域的清晰度大于预设清晰度阈值，则将当前视频帧作为待选关键帧。

其中，需要说明的是，人脸区域的清晰度可通过多种方式表示，举例而言，可利用边缘锐利程度、傅里叶变换值(即傅里叶变换后所获得的取值)等表示人脸区域的清晰度。

作为一种示例性的实施方式，在通过人脸检测模型确定当前视频帧中的人脸区域后，可对人脸区域进行离散傅里叶变换，以生成人脸区域对应的傅里叶变换值。

其中，该傅里叶变换值表示对人脸区域中各个像素的离散傅里叶变换后的幅值求和所获得的取值。

具体而言，在通过人脸检测模型确定当前视频帧中的人脸区域后，对人脸区域中的各个像素进行离散傅里叶变换，并计算出各个像素离散傅里叶变换后的幅值，然后，计算出各个像素离散傅里叶变换后的幅值之和，以生成人脸区域对应的傅里叶变换值。

在获取脸区域对应的傅里叶变换值之后，可判断傅里叶变换值是否大于预设的傅里叶变换阈值，若大于，则将当前视频帧作为待选关键帧，否则将当前视频帧为非待选关键帧。

通常所计算出的各个像素离散傅里叶变换后的幅值之和的取值较大，在实际应用中，为了方便快速确定出当前视频帧是否为待选关键帧，可对所计算出的各个像素离散傅里叶变换后的幅值之和的取值进行预处理，例如，对所计算出的各个像素离散傅里叶变换后的幅值之和的取值进行对数处理，并判断对数处理之后所获取的取值是否大于一定的预设阈值，如果大于一定的预设阈值，则将当前视频帧作为待选关键帧。

作为一种示例性的实施方式，在视频帧内特征信息包括字幕信息时，针对每个视频帧，根据OCR识别结果判断当前视频帧中是否包含字幕信息后，可获取待处理视频的视频类型,根据视频类型和当前视频的判断结果确定是否将当前视频帧作为待选关键帧。

在本发明的一个实施例中，可通过多种方式获取待处理视频的视频类型，举例而言，可接收用户上传的待处理视频的视频类型，或者，通过对待处理视频进行分析，以获取待处理视频的视频类型。

具体而言，当视频类型为第一视频类型时，如果根据OCR识别结果确定当前视频帧中包含字幕信息，则将当前视频帧作为待选关键帧。

当视频类型为第二视频类型时，如果根据OCR识别结果确定当前视频帧中不包含字幕信息，则将当前视频帧作为待选关键帧。

举例而言，假设第一视频类型为影视视频，第二视频类型为走秀视频，对于影视视频而言，如果根据OCR识别结果确定当前视频帧中包含字幕信息，则可确定字幕信息意味着是人物间对话，当前视频帧中出现人物间对话说明当前视频帧极有可能出现人物图像，此时，将当前视频帧作为待选关键帧。对于走秀视频而言，如果根据OCR识别结果确定当前视频帧中包含字幕信息，即当前视频帧中出现文字信息，则说明书当前视频帧是穿插于走秀视频之间的访谈，此时，可将当前视频帧作为非待选关键帧。同样地，对于走秀视频而言，如果根据OCR识别结果确定当前视频帧中不包含字幕信息，则可确定当前视频帧极有可能出现人物图像，此时，将当前视频帧作为待选关键帧。

作为一种示例性的实施方式，在视频帧内特征信息包括人脸特征信息和字幕信息时，根据每个视频帧的视频帧内特征信息从序列视频帧中确定出多个待选关键帧的方式有两种。

第一种方式，通过人脸特征信息和字幕信息分别从序列视频帧中确定出多个待选关键帧。

第二种方式，先通过人脸特征信息从序列视频帧中确定出待选关键帧，然后，对于所确定出的待选关键帧，通过字幕信息对所确定出的待选关键帧进一步筛选，以根据筛选后的待选关键帧进行后续处理。

S15，根据关键帧生成待处理视频的视频摘要信息。

在本发明的一个实施例中，根据每个待选关键帧组中待选关键帧的人脸特征信息分别确定每个待选关键帧组的关键帧后，根据每个待选关键帧组的关键帧生成待处理视频帧的视频摘要信息。

其中，通常视频摘要可以分为静态视频摘要和动态视频摘要两类。其中，静态视频摘要由一组静态图片组成，附加背景音乐，类似“连环画”。动态视频摘要由一组视频片段组成，使用原始视频进行剪辑拼接得到。

作为一种示例性的实施方式，在通过该实施例的视频摘要生成方法生成待处理视频的视频摘要信息时，在获取每个待选关键帧组的关键帧后，可根据每个待选关键帧组的关键帧直接生成动态视频摘要和静态视频摘要，也可以根据用户的需求生成用户所需求的动态视频摘要和/或静态视频摘要。

为了使得本领域的技术人员更清楚的了解本发明，下面分别对生成动态视频摘要和静态视频摘要进行描述。

(1)生成静态视频摘要

作为一种示例性的实施方式，在获取每个待选关键帧组的关键帧后，可先获取预先设置的每帧展示持续时间，然后，获取每秒中需要展示的视频帧数，根据每帧展示持续时间和视频帧数对每个关键帧进行复制操作，并将经过复制操作后的每个关键帧输入视频编辑工具，以通过视频编辑工具生成静态视频摘要。

其中，需要理解的是，在将经过复制操作后的每个关键帧输入视频编辑工具后，还可以为静态视频摘要设置其他参数，例如，可设置音乐信息、封面参数信息等，以生成内容更为丰富的静态视频摘要，以更好满足用户的需求。

(2)生成动态视频摘要

作为一种示例性的实施方式，在获取每个待选关键帧组的关键帧后，可先获取预先设置的每个视频段的展示持续时间，然后，根据展示持续时间对关键帧进行筛选，针对展示持续时间中包括两个关键帧的情况，即，对相邻关键帧之间的时间间隔小于展示持续时间的情况，直接丢弃后一帧关键帧，对于所保留的关键帧，并将所保留的关键帧输入视频编辑工具，以通过视频编辑工具生成动态视频摘要。

举例而言，假设每个视频段的展示持续时间为10秒，对于相邻的关键帧，如果在第1秒有一个关键帧，且在第8秒有一个关键帧，则将第8秒的关键帧删除。

其中，需要理解的是，在将经过复制操作后的每个关键帧输入视频编辑工具后，还可以为动态视频摘要设置其他参数，例如，可设置音乐信息、封面参数信息等，以生成内容更为丰富的动态视频摘要，以更好满足用户的需求。

作为一种示例性的实施方式，该实施例中的视频摘要信息中包括待处理视频中的精彩视频片段。

根据本发明实施例的视频摘要生成方法，获取待处理视频，并对待处理视频进行切分，以生成待处理视频的序列视频帧，以及提取序列视频帧中每个视频帧的视频帧特征信息，然后，根据每个视频帧的视频帧特征信息从序列视频帧中提取关键帧，以及根据关键帧生成待处理视频的视频摘要信息。由此，提出了一种可根据视频帧特征信息自动生成视频摘要信息的方法，减少了生成视频摘要信息所需要的成本，且提高了生成视频的视频摘要信息的效率。

图3为根据本发明另一个实施例的视频摘要生成方法的流程图。

如图3所示，根据本发明实施例的视频摘要生成方法，包括以下步骤。

S31，获取待处理视频。

S32，对待处理视频进行切分，以生成待处理视频的序列视频帧。

其中，需要说明的是，步骤S32与步骤S12相同，前述对步骤S12的解释说明也适用于步骤S32，此处不再赘述。

S33，提取序列视频帧中每个视频帧的视频帧内特征信息和视频帧间特征信息。

其中，视频帧内特征信息包括人脸特征信息和字幕信息。

其中，人脸区域表示当前视频帧中人脸所在的区域。

在本发明的一个实施例中，在视频帧内特征信息包括字幕信息时，提取序列视频帧中每个视频帧的字幕信息的过程为：针对每个视频帧，确定当前视频帧的字幕区域，然后，对字幕区域进行OCR识别处理，以生成OCR识别结果，以及根据OCR识别结果判断当前视频帧中是否包含字幕信息。

具体而言，针对每个视频帧，确定当前视频帧的字幕区域，然后，对字幕区域进行OCR识别处理，以生成OCR识别结果，然后，根据OCR识别结果确定当前视频帧中的字幕特征信息。

其中，字幕特征信息包括字幕词数和/或字幕平均词频。

其中，第一预设阈值是预先设置的字幕词数的阈值。

其中，第二预设阈值是预先设置的字幕平均词频的阈值。

其中，视频帧间特征信息包括视频帧间相似度特征信息。

S34，根据每个视频帧的视频帧内特征信息从序列视频帧中确定出多个待选关键帧。

其中，需要说明的是，前述对根据每个视频帧的视频帧内特征信息从序列视频帧中确定出多个待选关键帧的解释说明也使用该实施例，此处不再赘述。

S35，根据待选关键帧的视频帧间特征信息对多个待选关键帧进行聚类处理，以生成待选关键帧组。

作为一种示例性的实施方式，可根据待选关键帧的视频帧之间的直方图相似度对待选关键帧进行聚类，例如，如果两个待选关键帧之间的直方图相似度大于预设的相似度阈值，则确定这两个待选关键帧划分为同一个待选关键帧组。

S36，针对每个待选关键帧组，根据每个待选关键帧组中待选关键帧的人脸特征信息分别确定每个待选关键帧组的关键帧。

作为一种示例性的实施方式，针对每个待选关键帧组，可获取当前待选关键帧组中待选关键帧的人脸区域的清晰度，并将清晰度最高的人脸区域所对应的待选关键帧作为当前待选关键帧组的关键帧。

S37，根据每个待选关键帧组的关键帧生成待处理视频帧的视频摘要信息。

其中，需要说明的是，前述对根据每个待选关键帧组的关键帧生成待处理视频帧的视频摘要信息的解释说明也适用于该实施例，此处不再赘述。

为了实现上述实施例，本发明还提出一种视频摘要生成装置。

图4为根据本发明一个实施例的视频摘要生成装置的结构示意图。

如图4所示，根据本发明实施例的视频摘要生成装置，包括：获取模块110、切分模块120、第一提取模块130、第二提取模块140和生成模块150，其中：

获取模块110用于获取待处理视频。

切分模块120用于对待处理视频进行切分，以生成待处理视频的序列视频帧。

第一提取模块130用于提取序列视频帧中每个视频帧的视频帧特征信息。

其中，视频帧特征信息包括视频帧内特征信息和视频帧间特征信息。

其中，视频帧内特征信息包括人脸特征信息和字幕信息，视频帧间特征信息包括视频帧间相似度特征信息。

第二提取模块140用于根据每个视频帧的视频帧特征信息从序列视频帧中提取关键帧。

生成模块150用于根据关键帧生成待处理视频的视频摘要信息。

在本发明的一个实施例中，在图4所示的基础上，如图5所示，第二提取模块140可以包括第一确定单元141、聚类单元142和第二确定单元143，其中：

第一确定单元141用于根据每个视频帧的视频帧内特征信息从序列视频帧中确定出多个待选关键帧。

聚类单元142用于根据待选关键帧的视频帧间特征信息对多个待选关键帧进行聚类处理，以生成待选关键帧组。

第二确定单元143用于针对每个待选关键帧组，根据每个待选关键帧组中待选关键帧的人脸特征信息分别确定每个待选关键帧组的关键帧。

在本发明的一个实施例中，生成模块150具体用于：根据每个待选关键帧组的关键帧生成待处理视频帧的视频摘要信息。

在本发明的一个实施例中，在视频帧内特征信息包括人脸特征信息时，第二提取模块140具体用于：针对每个视频帧，通过预先训练的人脸检测模型确定当前视频帧是否包含人脸；若确定当前视频帧包含人脸，则通过人脸检测模型确定当前视频帧中的人脸区域。

其中，第一确定单元141具体用于：确定人脸区域的清晰度，判断人脸区域的清晰度是否大于预设清晰度阈值，若判断人脸区域的清晰度大于预设清晰度阈值，则将当前视频帧作为待选关键帧。

在本发明的一个实施例中，第一确定单元141具体用于：对人脸区域进行离散傅里叶变换，以生成人脸区域对应的傅里叶变换值。

在本发明的一个实施例中，在视频帧内特征信息包括字幕信息时，第二提取模块140具体用于：针对每个视频帧，确定当前视频帧的字幕区域；对字幕区域进行OCR识别处理，以生成OCR识别结果；根据OCR识别结果判断当前视频帧中是否包含字幕信息；

其中，第一确定单元141具体用于：获取待处理视频的视频类型，并根据视频类型和当前视频的判断结果确定是否将当前视频帧作为待选关键帧。

在本发明的一个实施例中，第二提取模块140具体用于：根据OCR识别结果确定当前视频帧中的字幕特征信息，其中，字幕特征信息包括字幕词数和/或字幕平均词频；判断当前视频帧中的字幕特征信息是否满足预设条件，字幕特征信息满足预设条件包括字幕词数大于第一预设阈值，和/或，字幕平均词频大于第二预设阈值；如果当前视频帧中的字幕特征信息满足预设条件，则确定当前视频证包含字幕信息。

在本发明的一个实施例中，第二提取模块140具体用于：当视频类型为第一视频类型时，如果根据OCR识别结果确定当前视频帧中包含字幕信息，则将当前视频帧作为待选关键帧；当视频类型为第二视频类型时，如果根据OCR识别结果确定当前视频帧中不包含字幕信息，则将当前视频帧作为待选关键帧。

其中，需要说明的是，前述对视频摘要生成方法的解释说明也适用于该实施例的视频摘要生成装置，此处不再赘述。

根据本发明实施例的视频摘要生成装置，获取待处理视频，并对待处理视频进行切分，以生成待处理视频的序列视频帧，以及提取序列视频帧中每个视频帧的视频帧特征信息，然后，根据每个视频帧的视频帧特征信息从序列视频帧中提取关键帧，以及根据关键帧生成待处理视频的视频摘要信息。由此，提出了一种可根据视频帧特征信息自动生成视频摘要信息的方法，减少了生成视频摘要信息所需要的成本，且提高了生成视频的视频摘要信息的效率。

为了实现上述实施例，本发明还提出一种视频摘要生成装置

该视频摘要生成装置可以包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为：获取待处理视频；对待处理视频进行切分，以生成待处理视频的序列视频帧；提取序列视频帧中每个视频帧的视频帧特征信息；根据每个视频帧的视频帧特征信息从序列视频帧中提取关键帧；根据关键帧生成待处理视频的视频摘要信息。

一种非易失性计算机存储介质，计算机存储介质存储有一个或者多个程序，当一个或者多个程序被一个设备执行时，使得设备执行上述实施例中的视频摘要生成方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种视频摘要生成方法，其特征在于，包括以下步骤：

获取待处理视频；

对所述待处理视频进行切分，以生成所述待处理视频的序列视频帧；

提取所述序列视频帧中每个视频帧的视频帧特征信息；

根据每个视频帧的视频帧特征信息从所述序列视频帧中提取关键帧；

根据所述关键帧生成所述待处理视频的视频摘要信息；

所述视频帧特征包括视频帧内特征信息和视频帧间特征信息，所述视频帧内特征信息包括人脸特征信息和字幕信息，所述根据每个视频帧的视频帧特征信息从所述序列视频帧中提取关键帧，包括：

根据每个视频帧的视频帧内特征信息从所述序列视频帧中确定出多个待选关键帧；

根据所述待选关键帧的视频帧间特征信息对所述多个待选关键帧进行聚类处理，以生成待选关键帧组；

针对每个待选关键帧组，根据每个待选关键帧组中待选关键帧的人脸特征信息分别确定每个待选关键帧组的关键帧；

所述根据所述关键帧生成所述待处理视频的视频摘要信息，包括：

根据每个待选关键帧组的关键帧生成所述待处理视频帧的视频摘要信息；

所述提取所述序列视频帧中每个视频帧的视频帧特征信息，包括：

针对每个视频帧，确定当前视频帧的字幕区域；

对所述字幕区域进行OCR识别处理，以生成OCR识别结果；

根据所述OCR识别结果判断所述当前视频帧中是否包含所述字幕信息；

所述根据每个视频帧的视频帧内特征信息从所述序列视频帧中确定出多个待选关键帧，包括：

获取所述待处理视频的视频类型；

根据所述视频类型的视频特点与字幕信息之间的关系，确定所述视频类型是否选用包含字幕信息的视频帧作为待选关键帧；

在确定所述视频类型选用包含字幕信息的视频帧作为待选关键帧时，从所述序列视频帧中，选择包含字幕信息的视频帧作为待选关键帧；

在确定所述视频类型选用不包含字幕信息的视频帧作为待选关键时，从所述序列视频帧中，选择不包含字幕信息的视频帧作为待选关键帧。

2.如权利要求1所述的方法，其特征在于，所述视频帧间特征信息包括视频帧间相似度特征信息。

3.如权利要求2所述的方法，其特征在于，所述提取所述序列视频帧中每个视频帧的人脸特征信息包括：

针对每个视频帧，通过预先训练的人脸检测模型确定当前视频帧是否包含人脸；

若确定当前视频帧包含人脸，则通过所述人脸检测模型确定所述当前视频帧中的人脸区域；

确定所述人脸区域的清晰度；

判断所述人脸区域的清晰度是否大于预设清晰度阈值；

若判断所述人脸区域的清晰度大于预设清晰度阈值，则将所述当前视频帧作为待选关键帧。

4.如权利要求3所述的方法，其特征在于，所述确定所述人脸区域的清晰度，包括：

对所述人脸区域进行离散傅里叶变换，以生成所述人脸区域对应的傅里叶变换值。

5.如权利要求1所述的方法，其特征在于，所述根据所述OCR识别结果判断所述当前视频帧中是否包含所述字幕信息，包括：

根据所述OCR识别结果确定所述当前视频帧中的字幕特征信息，其中，所述字幕特征信息包括字幕词数和/或字幕平均词频；

判断所述当前视频帧中的字幕特征信息是否满足预设条件，所述字幕特征信息满足预设条件包括所述字幕词数大于第一预设阈值，和/或，所述字幕平均词频大于第二预设阈值；

如果所述当前视频帧中的字幕特征信息满足预设条件，则确定所述当前视频证包含字幕信息。

6.一种视频摘要生成装置，其特征在于，包括：

获取模块，用于获取待处理视频；

切分模块，用于对所述待处理视频进行切分，以生成所述待处理视频的序列视频帧；

第一提取模块，用于提取所述序列视频帧中每个视频帧的视频帧特征信息；

第二提取模块，用于根据每个视频帧的视频帧特征信息从所述序列视频帧中提取关键帧；

生成模块，用于根据所述关键帧生成所述待处理视频的视频摘要信息；

所述视频帧特征包括视频帧内特征信息和视频帧间特征信息，所述视频帧内特征信息包括人脸特征信息和字幕信息，所述第二提取模块，包括：

第一确定单元，用于根据每个视频帧的视频帧内特征信息从所述序列视频帧中确定出多个待选关键帧；

聚类单元，用于根据所述待选关键帧的视频帧间特征信息对所述多个待选关键帧进行聚类处理，以生成待选关键帧组；

第二确定单元，用于针对每个待选关键帧组，根据每个待选关键帧组中待选关键帧的人脸特征信息分别确定每个待选关键帧组的关键帧；

所述生成模块，具体用于：

所述第一提取模块，具体用于：

针对每个视频帧，确定当前视频帧的字幕区域；

对所述字幕区域进行OCR识别处理，以生成OCR识别结果；

所述第一确定单元，具体用于：

获取所述待处理视频的视频类型；

7.如权利要求6所述的装置，其特征在于，所述视频帧间特征信息包括视频帧间相似度特征信息。

8.如权利要求7所述的装置，其特征在于，所述第二提取模块，具体用于：

针对每个视频帧，通过预先训练的人脸检测模型确定当前视频帧是否包含人脸；若确定当前视频帧包含人脸，则通过所述人脸检测模型确定所述当前视频帧中的人脸区域；

所述第一确定单元，具体用于：

确定所述人脸区域的清晰度，判断所述人脸区域的清晰度是否大于预设清晰度阈值，若判断所述人脸区域的清晰度大于预设清晰度阈值，则将所述当前视频帧作为待选关键帧。

9.如权利要求8所述的装置，其特征在于，所述第一确定单元，具体用于：

10.如权利要求6所述的装置，其特征在于，所述第二提取模块，具体用于：

11.一种视频摘要生成装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取待处理视频；

提取所述序列视频帧中每个视频帧的视频帧特征信息；

根据所述关键帧生成所述待处理视频的视频摘要信息；

针对每个视频帧，确定当前视频帧的字幕区域；

对所述字幕区域进行OCR识别处理，以生成OCR识别结果；

获取所述待处理视频的视频类型；

12.一种非易失性计算机存储介质，所述计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备执行如权利要求1-5任一项所述的视频摘要生成方法。