CN109151501A

CN109151501A - 一种视频关键帧提取方法、装置、终端设备及存储介质

Info

Publication number: CN109151501A
Application number: CN201811173543.8A
Authority: CN
Inventors: 程成
Original assignee: Beijing Zhou Tong Technology Co Ltd
Current assignee: Beijing Zhou Tong Technology Co Ltd
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2019-01-04
Anticipated expiration: 2038-10-09
Also published as: CN109151501B

Abstract

本发明公开了一种视频关键帧提取方法、装置、终端设备及存储介质。所述方法包括：对视频数据流进行预处理，提取候选关键帧；确定各所述候选关键帧对应的特征向量；对各所述特征向量进行聚类，得到至少两个聚类簇；根据各所述候选关键帧的静态度从各所述聚类簇中提取关键帧。利用该方法能够快速准确的提取视频中的关键帧。

Description

一种视频关键帧提取方法、装置、终端设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种视频关键帧提取方法、装置、终端设备及存储介质。

背景技术

人们在认知世界过程中，视觉占了主要地位其次为听觉。而视频记录的是视觉和听觉信息，通过视频中的图片和音频信息，可以让人们充分认知视频中所记录的内容信息(如食物的味道、香味、触感等)。随着互联网和云存储的快速发展，视频数据开始呈现爆炸性的增长。面对海量的视频数据，如何对视频进行准确的分析、推荐、检索与存储是一个关键性问题。

视频数据本身是由连续的图像序列构成，本质还是图像只是出现的先后顺序不同而已。所以视频的问题可以转化为图像的问题来处理，即提取视频的关键帧来代表该视频。视频所提取的关键帧需要与视频的内容高度相关并极具代表性，故如何能够快速准确的提取视频中的关键帧是亟待解决的问题。

发明内容

本发明实施例提供了一种视频关键帧提取方法、装置、终端设备及存储介质，以实现快速准确的提取视频中的关键帧。

第一方面，本发明实施例提供了一种视频关键帧提取方法，包括：

对视频数据流进行预处理，提取候选关键帧；

确定各所述候选关键帧对应的特征向量；

对各所述特征向量进行聚类，得到至少两个聚类簇；

根据各所述候选关键帧的静态度从各所述聚类簇中提取关键帧。

第二方面，本发明实施例还提供了一种视频关键帧提取装置，包括：

预处理模块，用于对视频数据流进行预处理，提取候选关键帧；

特征向量确定模块，用于确定各所述候选关键帧对应的特征向量；

聚类模块，用于对各所述特征向量进行聚类，得到至少两个聚类簇；

提取模块，用于根据各所述候选关键帧的静态度从各所述聚类簇中提取关键帧。

第三方面，本发明实施例还提供了一种终端设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例提供的视频关键帧提取方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例提供的视频关键帧提取方法。

本发明实施例提供了一种视频关键帧提取方法、装置、终端设备及存储介质。利用上述技术方案，能够首先对视频数据流进行预处理，提取候选关键帧，有效减少了运算量，提高了关键帧的提取速度；然后对各候选关键帧的特征向量进行聚类，得到至少两个聚类簇，并根据各候选关键帧的静态度从各聚类簇中提取关键帧，能够更加准确的从视频数据流中提取具有代表性的关键帧，提升了关键帧的质量。

附图说明

图1为本发明实施例一提供的一种视频关键帧提取方法的流程示意图；

图2a为本发明实施例二提供的一种视频关键帧提取方法的流程示意图；

图2b为本发明实施例二提供的LBP特征值提取示意图；

图2c示出了本发明实施例二中进行视频数据流切割的示意图；

图3为本发明实施例三提供的一种视频关键帧提取装置的结构示意图；

图4为本发明实施例四提供的一种终端设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种视频关键帧提取方法的流程示意图，该方法可适用于提取视频的关键帧来代表该视频的情况，该方法可以由视频关键帧提取装置来执行，其中该装置可由软件和/或硬件实现，并一般集成在终端设备上，在本实施例中终端设备包括但不限于：计算机、个人数字助理或手机等设备。

人类对世界的认知是通过五官来获得物质、空间、时间等信息，根据美国哈佛商学院有关研究人员的分析资料表明，正常人的大脑每天通过五官所接受外部信息的比例为：味觉1％，触觉1.5％，嗅觉3.5％，听觉11％以及视觉83％。由此可见人们在认知世界的过程中，视觉占了主要地位其次是听觉。而视频记录的就是视觉和听觉信息，通过视频中的图片和音频信息，可以让人们充分认知视频中所记录的内容信息。

一般视频中前后相邻的视频帧包含了大量相同或相似的内容，存在冗余性。可以通过从视频中提取最具代表性的、反映该视频主要内容的若干帧来代表这个视频，而这些帧就是关键帧。通过所提取的关键帧，就可以用微小的数据量把一个视频的特性表示出来。从而视频识别、推荐和/或检索等问题就可以转化为对这些关键帧进行图像识别、推荐和/或检索等问题。本实施例提供了一种视频关键帧提取方法，能够快速准确的提取视频中的关键帧，并应用与实时领域。

如图1所示，本发明实施例一提供的一种视频关键帧提取方法，包括如下步骤：

S101、对视频数据流进行预处理，提取候选关键帧。

在本实施例中，视频数据流可以理解为待提取关键帧的视频。预处理可以理解为对视频数据流进行筛选，滤除视频数据流中的暗帧、模糊帧和/或低质帧。候选关键帧可以理解为待进行关键帧提取的清晰、明亮和/或质量高的视频帧。

在提取视频数据流中的关键帧前，可以首先对视频数据进行预处理，如滤除视频数据流中的暗帧、模糊帧和/或低质帧，以提高所提取的关键帧的质量。

在滤除视频数据流中的暗帧、模糊帧和/或低质帧时，可以根据图像亮度值、清晰度值和/或质量值实现。此外，也可以通过镜头边缘检测算法滤除发生镜头切换的帧。

其中，镜头边缘检测算法可以检测出一段视频数据流中发生镜头切换的图像帧。一般在同一个镜头中，相邻的帧是相似的，所以可以通过检测相邻帧特征的突变来实现。

在滤除发生镜头切换的图像帧时，可以采用绝对帧间差法、颜色直方图法、感知哈希法或图片相关系数法。

绝对帧间差法：比较相邻图像帧像素的亮度和之差，当大于某个阈值时，则判定发生突变。

颜色直方图法：以图像的颜色直方图为图像特征，用直方图的交来衡量图片间的相似度。当相似度低于某个阈值时，则判定为突变。

感知哈希法：用于相似图片搜索，通过相似图片搜索实现镜头检测。

图片相关系数法：通过两幅图像的相关系数来衡量相邻帧的相似性。

此外，处理整个视频数据流中的全部图像帧是非常耗时且浪费计算资源的，故预处理还可以包括对视频数据流进行采样，采样后再滤除采样后视频帧中的暗帧、模糊帧和/或低质帧，从而能够有效加快处理速度，减少关键帧提取时间。其中采样方式可以包括：逐帧采样、随机采样和等间隔采样。

S102、确定各所述候选关键帧对应的特征向量。

在本实施例中，特征向量可以理解为用于描述候选关键帧的特征描述符。

本实施例中可以通过对候选关键帧对应的特征向量进行分析，以提取出视频数据流中的关键帧。

通常视频数据流中很多帧都是相似度非常高的，因此针对视频数据流的一些易于计算的特征变可以有效区分不同视频数据流间的相似度。例如颜色和边缘直方图特征、局部二值模式(Local Binary Pattern，LBP)特征等。其中LBP特征是一种用来描述图像局部纹理特征的算子，具有多分辨率、灰度尺度不变和旋转不变等特性，可用于特征提取中的纹理提取。

深度学习中卷积神经网络在图像识别领域表现出强有力的特征提取能力，也可以作为特征提取的工具之一。通过选用经典的CNN模型如AlexNet、VGGNet和/或Inception等网络架构，在其用于输出特征的特定层获得候选关键帧的高维特征向量表述。

本步骤可以采用特征提取算法确定各候选关键帧对应的特征向量。特征提取算法可以包括：

基于颜色特征：如颜色直方图、颜色集、颜色矩或颜色聚合向量等；

基于纹理特征：如Tamura纹理特征、自回归纹理模型、Gabor变换、小波变换或MPEG7边缘直方图等；

基于形状特征：如傅立叶形状描述符、不变矩或小波轮廓描述符等。

S103、对各所述特征向量进行聚类，得到至少两个聚类簇。

聚类可以指将各特征向量划分为若干类，使得类内之间的数据最为相似，各类之间的数据相似度差别尽可能大。聚类分析就是以相似性为基础，对数据集进行聚类划分，属于无监督学习。无监督学习无需知道所要搜寻的目标，它是根据算法得到数据的共同特征。聚类可认为是以相似度为基础，将对象分得不同的簇，即聚类簇。

在得到各候选关键帧对应的特征向量后，本步骤可以对各特征向量进行聚类，将相似度高的候选关键帧归为一个聚类簇。聚类算法可以包括K-Means聚类、均值漂移聚类、基于密度的聚类方法、用高斯混合模型(GMM)的最大期望(EM)聚类、凝聚层次聚类或图团体检测。其中，K-Means聚类(即k均值聚类)步骤可以为：

首先可以先选择一些类/组，并随机初始化各自的中心点。其次计算每个数据点(即特征向量)到中心点的距离，数据点距离哪个中心点最近就划分到哪一类中。然后计算每一类中中心点作为新的中心点。重复以上步骤，直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点，然后选择运行结果最好的一个。其中聚类的个数的设置(即聚类簇或类的个数)可以根据实际需求进行设置。如，将聚类的个数设置为视频数据流中镜头的个数。

S104、根据各所述候选关键帧的静态度从各所述聚类簇中提取关键帧。

在本实施例中，静态度可以理解为用于表征图像运动能量的数值。

最常见的关键帧提取方法是基于聚类分析，通过计算视频帧之间的视觉相似度，并从每一个簇类(即聚类簇)中选择一张最接近簇类中心的候选关键帧作为关键帧。本步骤中区别于常规方法，通过图像的静态度来从不同的簇类中提取关键帧。这是由于视频压缩中采用的运动补偿会导致模糊伪像，通常具有高运动能量的图像也会更模糊。运动能量与静态度成反比，低运动能量的图像的静态度高。因此，本步骤可以通过选择具有低运动能量的图像可以确保提取的关键帧的质量更高。

采用聚类算法对各特征向量进行聚类后，同一聚类簇中的不同候选关键帧可以具有相同的标号，本步骤可以从各聚类簇中得到与视频数据流内容高度相关并具代表性的提取关键帧。具体地，本步骤可以分别计算各聚类簇中的候选关键帧的静态度。然后，可以分别从各聚类簇中选取静态度最高的候选关键帧作为关键帧；也可以从各聚类簇中按照静态度从大到小的顺序，选取预设个数的候选关键帧很作为关键帧。其中，静态度可以理解为相邻候选关键帧的像素差的平方和的倒数。如第一像素差与第二像素差的平方和的倒数。其中第一像素差可以为当前候选关键帧和前一候选关键帧的像素差，第二像素差可以为当前候选关键帧和下一候选关键帧的像素差。

本发明实施例一提供了一种视频关键帧提取方法。利用上述方法，能够首先对视频数据流进行预处理，提取候选关键帧，有效减少了运算量，提高了关键帧的提取速度；然后对各候选关键帧的特征向量进行聚类，得到至少两个聚类簇，并根据各候选关键帧的静态度从各聚类簇中提取关键帧，能够更加准确的从视频数据流中提取具有代表性的关键帧，提升了关键帧的质量。

实施例二

图2a为本发明实施例二提供的一种视频关键帧提取方法的流程示意图，本实施例二在上述各实施例的基础上进行优化。在本实施例中，将对视频数据流进行预处理，提取候选关键帧，进一步具体化为：对视频数据流进行等间隔采样得到视频帧；根据各所述视频帧的亮度值、清晰度值、质量值和/或边缘检测结果，确定候选关键帧。

进一步地，本实施例还将确定各所述候选关键帧对应的特征向量，进一步优化为：将各所述候选关键帧分别划分为预设个数的图像块；计算各所述图像块对应的LBP特征值；根据各所述候选关键帧对应的LBP特征值，确定各所述候选关键帧对应的特征向量。

在上述优化的基础上，将对各所述特征向量进行聚类，得到至少两个聚类簇，具体优化为：对各所述特征向量进行k均值聚类，形成聚类簇，所述聚类簇的个数与所述视频数据流中镜头个数相同。

在上述优化的基础上，将根据各所述候选关键帧的静态度从各所述聚类簇中提取关键帧，具体优化为：分别计算各所述聚类簇中所包含候选关键帧的静态度；从各所述聚类簇中提取静态度最大的候选关键帧作为关键帧。

进一步地，本实施例还优化包括了：根据得到的各所述聚类簇将视频数据流进行切割。本实施例尚未详尽的内容请参考实施例一。

现有的关键帧提取技术应用于视频识别或视频摘要时都或多或少存在以下问题：

视频数据预处理技术不成熟，逐帧采样计算量大、耗时，随机采样丢失信息多，等间隔采样存在暗帧、模糊帧等低质帧，而这些不利于视频的检索、推荐、识别；

关键帧提取不能很好的达到实时标准；

关键帧不具有很好的代表性，导致所生成的视频摘要不具代表性，不利于视频检索；

基于镜头、场景分割提取的关键帧，主要还是依靠镜头、场景分割的准确性，若分割的不佳，就会导致不能很好的提取到代表性的关键帧。

为了解决上述问题，从而快速有效的提取关键帧，本实施例设计了一种视频关键帧提取方法，即一种用于视频识别的基于子镜头的视频分割与语义关键帧抽取技术，视频关键帧提取方法简要概括如下：

视频数据粗粒度过滤：能够将等间隔采样所得到的视频帧中的低质帧过滤掉，提高采样获取的视频帧的整体质量；

采用图像特征提取方法，快速提取候选关键帧中的特征向量，无需进行镜头、场景分割，提高了算法的效率与准确度；

采用聚类技术，快速聚合相似特征向量，提取静态度最高的候选关键帧，作为关键帧并用于视频识别和/或视频摘要。

如图2a所示，本发明实施例二提供的一种视频关键帧提取方法，包括如下步骤：

S201、对视频数据流进行等间隔采样得到视频帧。

在对视频数据流进行预处理提取候选关键帧时，本步骤可以首先对视频数据流进行等间隔采样，以得到视频帧。该视频帧可以理解为对视频数据流进行等间隔采样后所获取的图像帧。

在对解压后的视频数据流进行采样预处理时主要有三种方式：逐帧采样、随机采样和等间隔采样。而大部分视频数据流都是非结构化，数据量巨大。如：一个25帧率的一小时视频(含有9万张图片)，若进行逐帧采样，对检索、推荐等而言精度高、效果好，但计算量巨大(如一般视频一秒包含25帧，一小时就包含9万帧的图片)、耗时、需要很好的硬件设备、不具有实时性且需要巨大的存储空间；如果进行随机采样，可根据随机值来抽取关键帧，算法运算量可控。但是在面对变化比较快的场景时，无法采样到有效的关键帧(代表性的关键帧)，容易遗失视频关键信息(遗失信息量多)；等间隔采样可以很好的结合两者的优点，在保证良好的效果和速度同时，还能保证丢失信息少，但所采样得到的帧还可能存在暗帧、模糊帧、低质帧。故本步骤对视频数据流进行等间隔采样后还需对得到的视频帧作进一步处理，以滤除暗帧、模糊帧和/或低质帧。

S202、根据各所述视频帧的亮度值、清晰度值、质量值和/或边缘检测结果，确定候选关键帧。

在采样得到视频帧后，本步骤可以进一步对视频帧进行处理，即确定各视频帧的亮度值、清晰度值、质量值和/或边缘检测结果，从而提取出明亮、清晰和/或质量高的候选关键帧。边缘检测结果可以理解为采用镜头边缘检测算法确定的该视频帧是否为镜头切换时获取的帧。

常见的视频处理系统通常采用以均匀的时间间隔在视频数据流中进行二次采样来减少视频帧的数量，但是该方法极易丢失视频中的某些关键帧。通常对于关键帧的要求是：清晰、明亮且质量高的视频帧。因此本步骤可以通过过滤视频帧中的暗帧、模糊帧和/或低质帧，以减小视频帧的数量。另外，在视频的镜头切换过程中会存在大量的模糊帧，因此根据镜头边缘检测可以进一步过滤掉不合格的视频帧。

本步骤不对亮度计算公式，清晰度计算公式，质量计算公式及边缘检测方法进行限定。示例性的，亮度值可根据亮度公式进行确定，亮度公式可为：

Luminance(I_rgb)＝0.2126I_r+0.7152I_g+0.0722I_b，

Ir、I_g和I_b分别为视频帧中像素红颜色对应的值、绿颜色对应的值和蓝颜色对应的值。

清晰度值可根据清晰度计算公式确定，清晰度公式可为：

D(f)＝∑_y∑_x|G(x,y)| (G(x,y)>T)，

G(x，y)的形式如下：

其中，T是给定的边缘检测阈值，G_x和G_y分别是像素点(x，y)处Sobel水平和垂直方向边缘检测算子的卷积，可以如下Sobel算子模板来监测边缘：

图像质量分为全参考、部分参考和无参考三种类型。本步骤在确定候选关键帧时，可采用无参考方式对各视频帧进行筛选。无参考方式可以基于图像统计特征，如均值、标准差和/或平均梯度。示例性的，标准差是指图像像素灰度值相对于均值的离散程度。如果标准差越大，表明图像中灰度级越分散，图像质量越好，假设视频帧为P，视频帧大小为M×N，图像质量计算公式为：

其中，μ为视频帧像素的平均值，均值计算公式为：

进一步地，根据各所述视频帧的亮度值、清晰度值、质量值和/或边缘检测结果，确定候选关键帧，包括：从各所述视频帧中选取亮度值大于亮度阈值、清晰度值大于清晰度阈值、质量大于质量阈值和/或非镜头边缘的视频帧作为候选关键帧。

非镜头边缘可以认为是对视频帧的边缘检测结果。边缘检测结果可以包括非镜头边缘和镜头边缘。非镜头边缘的视频帧可以理解为该视频帧为镜头没有切换时获取的帧。非镜头边缘的视频帧的判断可以采用镜头边缘检测算法确定。

在确定候选关键帧时，在通过亮度公式计算出亮度值，通过清晰度公式计算清晰度值和/或通过图像质量计算公式计算出质量值，然后从各所述视频帧中选取亮度值大于亮度阈值、清晰度值大于清晰度阈值、质量大于质量阈值和/或非镜头边缘的视频帧作为候选关键帧，从而实现了对视频帧的过滤。其中，亮度阈值、清晰度阈值和质量阈值可以根据实际需求进行设定，此处不作限定。

S203、将各所述候选关键帧分别划分为预设个数的图像块。

在本实施例中，图像块可以理解为候选关键帧划分得到的图像区域。

在确定各候选关键帧对应的特征向量时，可以将每一候选关键帧划分为预设个数的图像块，然后分别对各图像块进行分析以得到对应候选关键帧的特征向量。其中，预设个数的具体数值可根据实际需求进行设定，此处不作限定。对候选关键帧进行划分是可以将候选关键帧的整副图像进行划分，也可以选取候选关键帧中部分图像进行划分。

S204、计算各所述图像块对应的LBP特征值。

在划分出图像块后，本步骤可以计算各图像块的LBP特征值，然后将每一候选关键帧包括的LBP特征值组合形成该候选关键帧的特征向量。

具体地，本实施例中选择LBP特征作为特征描述符来描述候选关键帧，首先应用LBP得到变换后的矩阵向量，进而把LBP的统计柱状图作为候选关键帧的特征向量。为了考虑特征的位置信息，把候选关键帧分成若干个小区域，在每个小区域里进行直方图统计，即统计该区域内属于某一模式的数量，最后再把所有区域的直方图一次连接到一起作为特征向量接受后续的处理。

图2b为本发明实施例二提供的LBP特征值提取示意图。如图2b所示，LBP算子定义在3*3的窗口内，以窗口中心像素的像素值6为阈值，将相邻8个像素的灰度值与其进行比较，若周围像素值大于中心像素值6，则该像素点的位置标记为1；否则标记为0。这样，3*3邻域内的8个像素经比较可产生8位二进制数10001100，通常转换为十进制140，即LBP码。该二进制值10001100即该窗口中心像素点的LBP值(即LBP特征值)，该LBP值可以反映该区域的纹理信息。

S205、根据各所述候选关键帧对应的LBP特征值，确定各所述候选关键帧对应的特征向量。

在确定各候选关键帧各自对应的LBP特征值后，本步骤可以分别计算各候选关键帧对应的特征向量。本步骤可以按照预先设定的组合顺序将候选关键帧所包括的全部LBP特征值进行合并，得到该候选关键帧的特征向量。预先设定的组合顺序可以不作限定，只要在进行视频关键帧提取的过程中均遵循同一顺序即可。

S206、对各所述特征向量进行k均值聚类，形成聚类簇，所述聚类簇的个数与所述视频数据流中镜头个数相同。

目前常用的关键帧提取算法主要有：基于边界的方法、基于内容分析的方法、基于运动分析的方法(主要为光流法、三角核等)、基于聚类的方法、基于压缩域的方法以及深度学习方法等。基于边界的方法非常适合于场景单一，视频内容变化不大或者基本不变的镜头，计算简单易于实现，但是对一个镜头只提取一个关键帧，很难准确全面地反映镜头的主要内容。基于内容分析的方法可以随着镜头内容的变化自适应选取出一定数量的关键帧，但是所选择的关键帧不一定有较强的代表性，并且当视频中有镜头运动时，可能会选出较多数量的关键帧。基于运动分析的方法，算法所提取的关键帧效果好，精度高，但是计算量大，主要依赖局部信息，导致鲁棒性不好，提取出的关键帧依赖阈值(而这阈值一般是依靠经验来判别)。基于聚类的方法所提取的关键帧具有很强的代表性，但是自适应聚类容易聚出的效果不好。基于压缩域的方法具有运行速度快，提取的关键帧不重叠，但是在实际中效果略差。基于深度学习的方法提取出的关键帧具有很强的代表性，但是需要大量数据来进行建模训练网络。

在得到各候选关键帧对应的特征向量后，本步骤可以对各特征向量进行k均值聚类，形成聚类簇。其中k值可以认为是聚类簇的个数，其可以设置为与视频数据流中镜头个数相同。视频数据流中镜头个数的获取方式不作限定，可以为本领域技术人员根据经验值确定。

S207、分别计算各所述聚类簇中所包含候选关键帧的静态度。

本实施例在使用K均值算法对各特征向量进行聚类，聚类的个数设置为视频中镜头的个数后，这通常会得到一个好的聚类结果。同一聚类簇中的不同候选关键帧具有相同的ID号，从而实现了对各特征向量的分类。本步骤可以分别计算各聚类簇中所包含候选关键帧的静态度。如计算各聚类簇中所包含候选关键帧与相邻候选关键帧的像素差的平方和的倒数。

可以理解的是，此时的候选关键帧为经过筛选后的视频帧，故相邻候选帧可以认为是与当前帧临近的前一帧和后一帧。如第3帧，第5帧和第7帧，则第5候选关键帧的静态度可以为第5帧与第3帧的像素差和第5帧与第7帧的像素差的平方和的倒数。

S208、从各所述聚类簇中提取静态度最大的候选关键帧作为关键帧。

计算完各聚类簇中候选关键帧的静态度后，本步骤可以从各聚类簇中选取静态度最大的候选关键帧作为该聚类簇的关键帧。从各聚类簇中提取出的关键帧则可以作为语义关键帧代替该聚类簇中其余候选关键帧。

S209、根据得到的各所述聚类簇将视频数据流进行切割。

在对候选关键帧帧进行聚类分析后，不仅可以获得关键帧，同时也会将视频数据流按不同的类别(即聚类簇)分为不同的片段，由类别的边界和类内候选关键帧的数量可以获取视频片段的起始时间及片段时长，进而可以将视频分解成具有特定特征的小视频段，完成切片任务，作为下一步视频理解模型的输入。

具体地，根据各聚类簇中所包含的候选关键帧在视频数据流中的位置将视频数据流进行切割，保证每个切割后的视频数据流中的各帧属于同一聚类簇。

图2c示出了本发明实施例二中进行视频数据流切割的示意图。如图2c所示，视频数据流21中包括了第一候选关键帧210、第二候选关键帧211、第三候选关键帧212、第四候选关键帧213、第五候选关键帧214和第六候选关键帧215。其中，第一候选关键帧210、第二候选关键帧211和第五候选关键帧214属于第一聚类簇，第三候选关键帧212和第四候选关键帧213属于第二聚类簇，第六候选关键帧215属于第三聚类簇。则视频数据流21可以被划分为包含第一候选关键帧210和第二候选关键帧211的第一视频片段216，包含第三候选关键帧212和第四候选关键帧213的第二视频片段217，包含第五候选关键帧214的第三视频片段218和包含第六候选关键帧215的第四视频片段219。

可以理解的是S208和S209的执行顺序不作限定，可以同时执行，也可以进行先切割再提取关键帧，还可以先提取关键帧再进行切割。

综述所述，为了能够快速准确地提取视频中的关键帧，以并应用于实时领域。本实施例提出的视频关键帧提取方法简要概括如下：首先对视频帧(即对视频数据流等间隔采样后的帧)进行粗过滤，过滤掉视频数据流中不合格的视频帧降低帧的数量。然后采用LBP算法提取关键帧的特征向量，最后对特征向量进行聚类进一步提取最具代表性的关键帧。

本发明实施例二提供的一种视频关键帧提取方法，具体化了预处理操作、特征向量确定操作、聚类操作和提取关键帧操作，此外还优化增加了视频数据流切割操作。利用该方法，能够首先通过等间隔采样降低处理数据量，再根据亮度值、清晰度值、质量值和/或边缘检测结果确定候选关键帧。该候选关键帧可以认为是视频数据流中的优质帧，对其进行分析能够使提取出的关键帧更加代表性。在对候选关键帧进行分析时，可以计算各候选关键帧对应的LBP值，然后将各候选关键帧对应的LBP值进行组合，形成对应候选关键帧的特征向量。然后对各特征向量进行k均值聚类，形成与视频数据流中镜头个数相同的聚类簇，选取各聚类簇中静态度最大值对应的候选关键帧作为该聚类簇的关键帧，提高了关键帧质量，使提取出的关键帧更具代表性。此外，基于聚类结果可以将视频数据流进行切割，以便于结合提取出的关键帧对视频进行进一步地分析。

实施例三

图3为本发明实施例三提供的一种视频关键帧提取装置的结构示意图，该装置可适用于提取视频的关键帧来代表该视频的情况，其中该装置可由软件和/或硬件实现，并一般集成在终端设备上。

如图3所示，该装置包括：预处理模块31、特征向量确定模块32、聚类模块33和提取模块34；

其中，预处理模块31，用于对视频数据流进行预处理，提取候选关键帧；

特征向量确定模块32，用于确定各所述候选关键帧对应的特征向量；

聚类模块33，用于对各所述特征向量进行聚类，得到至少两个聚类簇；

提取模块34，用于根据各所述候选关键帧的静态度从各所述聚类簇中提取关键帧。

在本实施例中，该装置首先通过预处理模块31对视频数据流进行预处理，提取候选关键帧；其次通过特征向量确定模块32确定各所述候选关键帧对应的特征向量；然后通过聚类模块33对各所述特征向量进行聚类，得到至少两个聚类簇；最后通过提取模块34根据各所述候选关键帧的静态度从各所述聚类簇中提取关键帧。

本实施例提供了一种视频关键帧提取装置，能够首先对视频数据流进行预处理，提取候选关键帧，有效减少了运算量，提高了关键帧的提取速度；然后对各候选关键帧的特征向量进行聚类，得到至少两个聚类簇，并根据各候选关键帧的静态度从各聚类簇中提取关键帧，能够更加准确的从视频数据流中提取具有代表性的关键帧，提升了关键帧的质量。

进一步地，预处理模块31，优化包括：

采样单元，用于对视频数据流进行等间隔采样得到视频帧；

确定单元，用于根据各所述视频帧的亮度值、清晰度值、质量值和/或边缘检测结果，确定候选关键帧。

在上述优化的基础上，确定单元，具体用于：从各所述视频帧中选取亮度值大于亮度阈值、清晰度值大于清晰度阈值、质量大于质量阈值和/或非镜头边缘的视频帧作为候选关键帧。

基于上述技术方案，特征向量确定模块32，具体用于：将各所述候选关键帧分别划分为预设个数的图像块；计算各所述图像块对应的LBP特征值；根据各所述候选关键帧对应的LBP特征值，确定各所述候选关键帧对应的特征向量。

进一步地，聚类模块33，具体用于：对各所述特征向量进行k均值聚类，形成聚类簇，所述聚类簇的个数与所述视频数据流中镜头个数相同。

进一步地，提取模块34，具体用于：分别计算各所述聚类簇中所包含候选关键帧的静态度；从各所述聚类簇中提取静态度最大的候选关键帧作为关键帧。

基于上述技术方案，视频关键帧提取装置，还优化包括了：分割模块，用于根据得到的各所述聚类簇将视频数据流进行切割。

上述视频关键帧提取装置可执行本发明任意实施例所提供的视频关键帧提取方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的一种终端设备的结构示意图。如图4所示，本发明实施例四提供的终端设备包括：一个或多个处理器41和存储装置42；该终端设备中的处理器41可以是一个或多个，图4中以一个处理器41为例；存储装置42用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器41执行，使得所述一个或多个处理器41实现如本发明实施例中任一项所述的视频关键帧提取方法。

所述终端设备还可以包括：输入装置43和输出装置44。

终端设备中的处理器41、存储装置42、输入装置43和输出装置44可以通过总线或其他方式连接，图4中以通过总线连接为例。

该终端设备中的存储装置42作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例一或二所提供视频关键帧提取方法对应的程序指令/模块(例如，附图3所示的视频关键帧提取装置中的模块，包括：预处理模块31、特征向量确定模块32、聚类模块33和提取模块34)。处理器41通过运行存储在存储装置42中的软件程序、指令以及模块，从而执行终端设备的各种功能应用以及数据处理，即实现上述方法实施例中视频关键帧提取方法。

存储装置42可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储装置42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置42可进一步包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置43可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。

并且，当上述终端设备所包括一个或者多个程序被所述一个或者多个处理器41执行时，程序进行如下操作：

对视频数据流进行预处理，提取候选关键帧；确定各所述候选关键帧对应的特征向量；对各所述特征向量进行聚类，得到至少两个聚类簇；根据各所述候选关键帧的静态度从各所述聚类簇中提取关键帧。

实施例五

本发明实施例五提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行视频关键帧提取方法，该方法包括：

可选的，该程序被处理器执行时还可以用于执行本发明任意实施例所提供的视频关键帧提取方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、无线电频率(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频关键帧提取方法，其特征在于，包括：

对视频数据流进行预处理，提取候选关键帧；

确定各所述候选关键帧对应的特征向量；

对各所述特征向量进行聚类，得到至少两个聚类簇；

2.根据权利要求1所述的方法，其特征在于，所述对视频数据流进行预处理，提取候选关键帧，包括：

对视频数据流进行等间隔采样得到视频帧；

根据各所述视频帧的亮度值、清晰度值、质量值和/或边缘检测结果，确定候选关键帧。

3.根据权利要求2所述的方法，其特征在于，所述根据各所述视频帧的亮度值、清晰度值、质量值和/或边缘检测结果，确定候选关键帧，包括：

从各所述视频帧中选取亮度值大于亮度阈值、清晰度值大于清晰度阈值、质量值大于质量阈值和/或非镜头边缘的视频帧作为候选关键帧。

4.根据权利要求1所述的方法，其特征在于，所述确定各所述候选关键帧对应的特征向量，包括：

将各所述候选关键帧分别划分为预设个数的图像块；

计算各所述图像块对应的LBP特征值；

根据各所述候选关键帧对应的LBP特征值，确定各所述候选关键帧对应的特征向量。

5.根据权利要求1所述的方法，其特征在于，所述对各所述特征向量进行聚类，得到至少两个聚类簇，包括：

对各所述特征向量进行k均值聚类，形成聚类簇，所述聚类簇的个数与所述视频数据流中镜头个数相同。

6.根据权利要求1所述的方法，其特征在于，所述根据各所述候选关键帧的静态度从各所述聚类簇中提取关键帧，包括：

分别计算各所述聚类簇中所包含候选关键帧的静态度；

从各所述聚类簇中提取静态度最大的候选关键帧作为关键帧。

7.根据权利要求1所述的方法，其特征在于，还包括：

根据得到的各所述聚类簇将视频数据流进行切割。

8.一种视频关键帧提取装置，其特征在于，包括：

9.一种终端设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的视频关键帧提取方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的视频关键帧提取方法。