CN117609549A

CN117609549A - 视频摘要生成方法及相关设备

Info

Publication number: CN117609549A
Application number: CN202311585598.0A
Authority: CN
Inventors: 董智明; 靖冠军; 刘馨; 周皓; 王凯月
Original assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Current assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2024-02-27

Abstract

本公开实施例公开了一种视频摘要生成方法及相关设备，属于计算机技术领域。该方法包括：获得待处理视频在当前镜头下的图像帧中的特征向量；根据所述当前镜头下的图像帧中的特征向量，构建当前图像帧的当前图像向量，所述当前镜头下的图像帧包括所述当前图像帧；根据所述当前图像向量获得所述当前图像帧与所述当前镜头下的图像帧之间的匹配度；根据所述匹配度确定所述当前镜头下的图像帧中的候选帧；根据所述待处理视频各个镜头下的图像帧中的候选帧，获得所述待处理视频中的摘要帧，并根据所述摘要帧生成所述待处理视频的摘要视频，所述待处理视频各个镜头中包括所述当前镜头。

Description

视频摘要生成方法及相关设备

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频摘要生成方法、视频摘要生成装置、计算机设备及计算机可读存储介质。

背景技术

视频作为当今社会越来越流行的表现形式，具有直观详实的特点。但长视频具有体积大、时间长的特点，在提取视频梗概或摘要时，往往只能采用浏览整部视频以对视频中的图像帧进行手工标记的方式，步骤比较繁琐，十分耗费人力，效率低下，且容易受人为主观因素的。

发明内容

本公开实施例提供了一种视频摘要生成方法，该方法包括：获得待处理视频在当前镜头下的图像帧中的特征向量；根据所述当前镜头下的图像帧中的特征向量，构建当前图像帧的当前图像向量，所述当前镜头下的图像帧包括所述当前图像帧；根据所述当前图像向量获得所述当前图像帧与所述当前镜头下的图像帧之间的匹配度；根据所述匹配度确定所述当前镜头下的图像帧中的候选帧；根据所述待处理视频各个镜头下的图像帧中的候选帧，获得所述待处理视频中的摘要帧，并根据所述摘要帧生成所述待处理视频的摘要视频，所述待处理视频各个镜头中包括所述当前镜头。

本公开实施例提供了一种视频摘要生成装置，该装置包括：特征向量获得单元，用于获得待处理视频在当前镜头下的图像帧中的特征向量；图像向量构建单元，用于根据所述当前镜头下的图像帧中的特征向量，构建当前图像帧的当前图像向量，所述当前镜头下的图像帧包括所述当前图像帧；匹配度获得单元，用于根据所述当前图像向量获得所述当前图像帧与所述当前镜头下的图像帧之间的匹配度；候选帧确定单元，用于根据所述匹配度确定所述当前镜头下的图像帧中的候选帧；视频摘要生成单元，用于根据所述待处理视频各个镜头下的图像帧中的候选帧，获得所述待处理视频中的摘要帧，并根据所述摘要帧生成所述待处理视频的摘要视频，所述待处理视频各个镜头中包括所述当前镜头。

本公开实施例提供了一种计算机设备，包括处理器、存储器、输入输出接口；处理器分别与存储器和输入输出接口相连，其中，输入输出接口用于接收数据及输出数据，存储器用于存储计算机程序，处理器用于调用该计算机程序，以使包含该处理器的计算机设备执行本公开任一实施例中的方法。

本公开实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行本公开任一实施例中的方法。

本公开实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本公开任一实施例中的各种可选方式中提供的方法。

附图说明

图1是本公开实施例提供的一种视频摘要生成方法的流程图。

图2是本公开实施例提供的另一种视频摘要生成方法的流程图。

图3和图4是本公开实施例提供的构建树的过程示意图。

图5是基于本公开实施例构建的树生成叶子节点的倒排文件的示意图。

图6是本公开实施例提供的一种去除剧情切换帧的示意图。

图7是本公开实施例提供的两个背景相同、特征区域相似的两张候选帧的示意图。

图8是基于图7所示的两张候选帧合成摘要帧的示意图。

图9是本公开实施例提供的一种视频摘要生成装置的示意图。

图10是本公开实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开实施例提供的视频摘要生成方法可以由任意的计算机设备执行，该计算机设备可以是终端和/或服务器。

图1是本公开实施例提供的一种视频摘要生成方法的流程图。如图1所示，本公开实施例提供的方法可以包括以下步骤。

在S110中，获得待处理视频在当前镜头下的图像帧中的特征向量。

本公开实施例中的待处理视频可以是任意的视频，例如电影、电视剧、流媒体等中的任意一种或者多种。该待处理视频可以是服务器从终端接收的视频，也可以是服务器从数据库或云端拉取的视频，本公开对此不做限定，只要是需要对其进行摘要提取的视频即可。

在示例性实施例中，获得待处理视频在当前镜头下的图像帧中的特征向量，包括：对所述待处理视频进行镜头分割，确定所述待处理视频在各个镜头下的图像帧；提取所述待处理视频中的所述当前镜头下的图像帧中的特征向量。

本公开实施例提供的视频摘要生成系统包括镜头分割模块，该镜头分割模块主要用于完成待处理视频中的镜头的分割，以将该待处理视频分割成至少一个镜头，每个镜头下包括至少一个图像帧。在进行摘要帧的提取过程中，以每个镜头下的图像帧为处理对象，分别获得每个镜头下的图像帧的摘要帧。下面均以该至少一个镜头中的当前镜头为例，该当前镜头可以是该待处理视频中的任意一个镜头。本公开实施例通过先对待处理视频进行镜头分割，然后再分别获得每个镜头下的图像帧中的摘要帧，即分别将每个镜头下的冗余帧进行剔除，保留具有重要信息的关键帧，然后将每个镜头下的摘要帧按时序拼接形成摘要视频，这样的分镜头提取摘要帧的方式，由于不同镜头下的图像帧中包含的信息差异较大，从而可以将该待处理视频中每个镜头下的重要的关键帧(作为摘要帧或者用于形成摘要帧)完整的提取出来，保证了最终形成的摘要视频的完整性和准确性。此外，先对待处理视频进行镜头分割，之后可以并行的对该至少一个镜头中的各个镜头下的图像帧进行摘要帧的处理，由此可以提高视频摘要生成的效率。考虑到每个镜头下的图像帧的处理方式是类似的，因此这里均以该至少一个镜头中的当前镜头为例举例说明。

本公开实施例中可以采取任意合适的镜头分割方式对待处理视频进行镜头分割，在下面的实施例中以颜色缺失度进行镜头分割举例说明，但本公开并不限定于此。

在示例性实施例中，对所述待处理视频进行镜头分割，确定所述待处理视频在各个镜头下的图像帧，包括：获得所述待处理视频中的图像帧的颜色直方图；根据所述待处理视频中相邻图像帧的颜色直方图，获得所述待处理视频中相邻图像帧之间的颜色缺失度；根据所述待处理视频中相邻图像帧之间的颜色缺失度对所述待处理视频中的图像帧进行镜头分割，确定所述待处理视频在各个镜头下的图像帧。

本公开实施例中，假设获取的原始的待处理视频为RGB(red，green，blue，红、绿、蓝)图像，将该RGB图像转换为HSV(Hue,Saturation,Value，色相、饱和度、色明度)图像，如果计算图像帧的颜色直方图时，忽略V分量，只使用H和S两个分量，则形成的颜色直方图是HS直方图；如果同时使用H、S和V三个分量，则形成的颜色直方图是HSV直方图。

假设待处理视频F＝{F₁,F₂,F₃,...,F_M}。其中F_m表示该待处理视频中的第m帧的颜色直方图。M表示该待处理视频中包含的图像帧的帧总数，即总共包含多少图像帧，M为大于1的正整数，m为大于或等于1且小于M的正整数。下面假设相邻图像帧为第m帧和第m+1帧。

在一些实施例中，可以通过以下方式计算待处理视频中相邻图像帧之间的颜色缺失度：

HD_m,i＝|H_m,i-H_m+1,i| (1)

SD_m,i＝|S_m,i-S_m+1,i| (3)

HS(F_m,F_m+1)＝w₁HD(F_m,F_m+1)+w₂SD(F_m,F_m+1)(5)

上述公式(1)至(5)中，H_m,i表示第m帧中的第i个像素的色相，H_m+1,i表示第m+1帧中的第i个像素的色相，由于色相用0至360°角度取值范围表示，因此也可以称之为色相角。HD_m,i表示第m帧和第m+1帧的第i个像素之间的色相角之差的绝对值。I表示第m帧中的总像素个数，I为大于1的正整数，i为大于或等于1且小于或等于I的正整数。HD(F_m,F_m+1)表示第m帧和第m+1帧之间的色相角差异度。S_m,i表示第m帧中的第i个像素的饱和度，S_m+1,i表示第m+1帧中的第i个像素的饱和度，饱和度的取值范围可以是0～100％。SD_m,i表示第m帧和第m+1帧的第i个像素之间的饱和度之差的绝对值。SD(F_m,F_m+1)表示第m帧和第m+1帧之间的饱和度差异度，其是第m帧与第m+1帧所有像素之间的饱和度之差的绝对值的平均值。HS(F_m,F_m+1)表示第m帧和第m+1帧之间的颜色缺失度，由于这里只考虑了H和S分量，因此也可以称之为HS缺失度。HS缺失度为第m帧和第m+1帧的色相角差异度和饱和度差异度的加权求和，w₁为第m帧和第m+1帧的色相角差异度的权重，w₂为第m帧和第m+1帧的饱和度差异度的权重，w₁和w₂的取值可以根据实际需要设置。本公开实施例中认为H分量比S分量更重要，因此可以设置w₁大于w₂，例如，w₁＝0.6，w₂＝0.4，但本公开并不限定于此。在公式(5)中，w₁与w₂之和等于1。

例如假设第m帧和第m+1帧分别各有4个像素，即I＝4，i＝{1,2,3,4}。并假设第m帧的第1至第4个像素的色相角和饱和度分别为(0°，0％)，(30°，30％)，(360°，100％)，(60°，100％)，第m+1帧的第1至第4个像素的色相角和饱和度分别为(30°，30％)，(30°，30％)，(360°，100％)，(60°，60％)，则根据以上公式(1)至(5)可知，HD_m,1＝30°，HD_m,2＝0°，HD_m,3＝0°，HD_m,4＝0°，HD(F_m,F_m+1)≈2.083％，SD_m,1＝30％，SD_m,2＝0％，SD_m,3＝0％，SD_m,4＝40％，SD(F_m,F_m+1)＝17.5％，HS(F_m,F_m+1)＝8.2498％。

本公开实施例中，当第m帧和第m+1帧的颜色缺失度大于颜色缺失度阈值时，可以判定第m帧和第m+1帧这相邻图像帧分别属于不同的镜头，即将第m帧Fm切分为当前镜头的最后一帧，将第m+1帧Fm+1切分为下一镜头的起始帧，由此可以确定出待处理视频在各个镜头下的图像帧，即确定待处理视频中的每个图像帧分别属于哪个镜头。当第m帧和第m+1帧的颜色缺失度小于或等于颜色缺失度阈值时，可以判定第m帧和第m+1帧这相邻图像帧属于同一镜头。

本公开实施例中，颜色缺失度阈值可以根据实际情况设置，例如假设颜色缺失度阈值设置为30％，则由于上述计算结果8.2498％小于30％，则可以判定第m帧和第m+1帧属于同一镜头。

本公开实施例中，如果两颜色直方图中有部分颜色增加的比较明显，或者有部分颜色减少的比较明显，即颜色直方图变化比较明显。如果颜色直方图颜色基本没有明显增加或减少，颜色直方图变化比较小。由于在镜头内部图像帧序列在颜色等信息上具有比较强的相关性，颜色变化不是很明显，因而颜色缺失度比较小。而在镜头变换时颜色信息通常会有很大的变化，有相当一部分颜色明显减少了或增加了，因此颜色缺失度比较大。由于这种特性能够很好地反映视频镜头变换的位置，因此镜头分割模块基于颜色缺失度来进行待处理视频的镜头分割，不仅克服了渐变镜头分割不准确的问题，而且对于相机引起的运动也能划分为一个镜头，即减少了镜头分类的复杂度。

在另一些实施例中，在计算颜色缺失度时，除了考虑H和S分量以外，还可以进一步考虑明度分量L，明度的取值范围可以为0～100％，由于此时颜色缺失度同时包括H、S和L三个分量，因此也可以表示为HSL缺失度，即可以通过以下方式计算待处理视频中相邻图像帧之间的颜色缺失度：

LD_m,i＝|L_m,i-L_m+1,i| (6)

HSL(F_m,F_m+1)＝w₁HD(F_m,F_m+1)+w₂SD(F_m,F_m+1)+w₃LD(F_m,F_m+1) (8)

上述公式(6)至(7)中，L_m,i表示第m帧中的第i个像素的明度，L_m+1,i表示第m+1帧中的第i个像素的明度。LD_m,i表示第m帧和第m+1帧的第i个像素之间的明度之差的绝对值。LD(F_m,F_m+1)表示第m帧和第m+1帧之间的明度差异度。公式(8)表示颜色缺失度HSL(F_m,F_m+1)为第m帧和第m+1帧的色相角差异度、饱和度差异度以及明度差异度的加权求和，w₃为第m帧和第m+1帧的明度差异度的权重，w₃的取值可以根据实际需要设置。在公式(8)中，w₁、w₂、w₃之和等于1。本公开实施例中认为H分量和S分量均比L分量更重要，因此可以设置w₁大于w₂，w₃小于和w₂，例如，w₁＝0.5，w₂＝0.3，w₃＝0.3，但本公开并不限定于此。

本公开实施例中，通过在计算颜色缺失度时，综合考虑H、S和L分量，从而可以利用明度来区分白色、银色、灰色和黑色等不同的颜色，尤其是黑色和白色的区分，可以进一步提升镜头分割的准确性。

在S120中，根据所述当前镜头下的图像帧中的特征向量，构建当前图像帧的当前图像向量，所述当前镜头下的图像帧包括所述当前图像帧。

本公开实施例中，当前图像帧可以是当前镜头下的任一图像帧。可以先提取该当前镜头下的所有图像帧中的特征向量，然后基于该当前镜头下的所有图像帧中的特征向量以及该当前图像帧。该特征向量可以是任意能够表征图像帧的特征的信息，在下面的实施例中，均以采用SIFT(Scale-invariant feature transform，尺寸不变特征转换)算法来提取SIFT特征向量进行举例说明，但本公开并不限定于此。

SIFT是一种机器视觉的算法，用来侦测与描述影像中的局部性特征，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变数。SIFT特征向量是基于物体的一些局部外观兴趣点，与影像的大小、旋转角度无关，且对光线、噪声、轻微视角改变的容忍度也相当高。基于以上特性，它们是高度显著而且相对容易撷取，在母数庞大的特征数据库中，很容易辨识物体而且鲜有误认。

本公开实施例提供的视频摘要生成系统还包括SIFT聚类模块，该模块使用SIFT算法选取当前镜头下的图像帧中的特征点区域，对提取到的特征区域进行匹配聚类，从而实现对当前镜头下的图像帧进行聚类。

本公开实施例中，三类镜头：1.静态镜头；2.缩放镜头；3.动态镜头，对应三类变化：1.光照变化；2.尺度变化；3.旋转变化。而SIFT算法具有光照、尺度、旋转鲁棒性，适合对当前镜头下的图像帧进行聚类。假设通过上述镜头分割模块将完整的待处理视频分割为了多个镜头，则分别采用SIFT算法对这多个镜头中的每个镜头下的图像帧进行聚类处理。例如第一个镜头下假设有100个镜头帧，则首先采用SIFT算法对这100个镜头帧进行聚类，以获取第一个镜头下的候选帧。第二个镜头下假设有200个镜头帧，则采用SIFT算法对这200个镜头帧进行聚类，以获取第二个镜头下的候选帧。

SIFT聚类模块可以采用如下步骤来实现SIFT特征向量的提取：

第一步：将当前镜头下的各个图像帧按时序排序，从第一张图像帧开始，经图像金字塔处理后，通过像素与像素的比较，提取特征点(寻找在不同尺度空间的极值点，保障这些特点在放大和缩小的情况下依然存在)。

第二步：使用梯度值对特征点进行表述，计算像素的梯度值和梯度方向。相对像素的亮度值，梯度对光照具有更好的鲁棒性。当图像处于一个刚体状态时(没有剧烈形变)，某像素与它周围像素的关系应该是近乎恒定的。对一个区域进行描述的话得到的描述将更加稳定。

第三步：将得到的角度值(即第二步计算像素的梯度方向)进行36等分，在特征点对应的尺度空间计算梯度值，利用高斯核对梯度进行计算权重。建立一个36维的直方图，每次累加的值就是它的权重。

计算每个关键点与其相邻像素的梯度的量值与方向后，为其建立一个以10度为单位36维的直方图。每个相邻像素依据其量值大小与方向加入关键点的直方图中。

第四步：获取一个具有代表性的方向作为主方向。通常选择梯度值最大的那个角度分量作为主方向，获得具有旋转鲁棒性的描述方法。

可以理解的是，针对最后算出的方向还可以有许多优化步骤。找到关键点的位置、尺寸并赋予关键点方向后，将可确保其移动、缩放、旋转的不变性。此外还需要为关键点建立一个描述子向量，使其在不同光线与视角下皆能保持其不变性，并且能够轻易与其他关键点作区分。通过以上步骤，对于每一个关键点，拥有三个信息：位置、尺度以及方向，接下来为每个关键点建立一个描述符，用一组向量将这个关键点描述出来，使其不随各种变化而变化，比如光照变化、视角变化等等，这个描述子不但包括关键点，也包含关键点周围对其有贡献的像素点，并且描述符应该有较高的独特性，以便于提高特征点正确匹配的概率。

经过上述第一步至第四步之后可以获得当前镜头下的所有图像帧中的SIFT特征向量。特征向量是用于表示数据的向量，其中每个维度代表数据的一个特征。在SIFT算法中，通过计算图像中每个关键点的局部邻域内像素点的梯度幅值和方向，构建一个特征向量，用于描述该关键点的特征。

在示例性实施例中，根据所述当前镜头下的图像帧中的特征向量，构建当前图像帧的当前图像向量，包括：获得所述当前图像帧中包括的各个特征向量的个数；获得所述当前镜头下的图像帧中的特征向量的重要度；根据所述当前图像帧中包括的各个特征向量的个数以及对应特征向量的重要度，构建所述当前图像向量。

本公开实施例中，假设从当前镜头下的所有图像帧中一共提取到N个特征向量，N为大于或等于1的正整数。可以获得该当前图像帧中包括哪些特征向量以及各个特征向量在该当前图像帧中的个数，例如a_n表示第n个特征向量在该当前图像帧中的个数，n为大于或等于1且小于或等于N的正整数。a_n为大于或等于0的整数，即当该当前图像帧中不包含某个特征向量时，其对应位置的a_n为0。即可以用一个N维的向量(a₁,a₂,…,a_n,…,a_N)来表示该当前图像帧中包括的各个特征向量的个数。

本公开实施例中，每个特征向量的重要度是指该当前镜头下所有图像帧中包含该特征向量的图像帧的数量多少，表示该特征向量对该当前镜头下的所有图像的重要性，度量了该特征向量在该当前镜头下的所有图像帧中的稀缺性。当该当前镜头下所有图像帧中出现该特征向量的图像帧的数量越少，则该特征向量的重要度越大，反之，该特征向量的重要度越小。

在示例性实施例中，获得所述当前镜头下的图像帧中的特征向量的重要度，包括：获得所述当前镜头下的图像帧的帧数量信息；获得在所述当前镜头下包含所述特征向量的帧数信息；根据所述当前镜头下的图像帧的帧数量信息和在所述当前镜头下包含所述特征向量的帧数信息，获得所述特征向量的重要度。

在一些实施例中，可以通过如下公式计算当前镜头下的图像帧中的第n个特征向量的重要度r_n：

r_n＝log(D中包含的帧总数/(D中包含第n个特征向量的帧数+1)) (9)

上述公式中，D表示当前镜头下的图像帧所形成的集合，从集合D中提取N个特征向量。当前镜头下的图像帧的帧数量信息包括集合D中包含的帧总数，即当前镜头下一共包含多少个图像帧。当前镜头下包含所述特征向量的帧数信息包括集合D中包含第n个特征向量的帧数，即当前镜头下的所有图像帧中一共有多少个图像帧中包含了第n个特征向量。

在另一些实施例中，可以通过如下公式计算当前镜头下的图像帧中的第n个特征向量的重要度r_n：

r_n＝log(D中包含的帧总数/D中包含第n个特征向量的帧数) (10)

采用上述方式分别获得N个特征向量中的每个特征向量的重要度，可以获得一个N维的向量(r₁,r₂,…,r_n,…,r_N)来表示该当前镜头下的所有图像帧中的N个特征向量的重要度。

本公开实施例中，可以利用如下公式来表示构建的当前图像帧的当前图像向量C：

C＝(r₁×a₁,r₂×a₂,…,r_n×a_n,…，r_N×a_N) (11)

在S130中，根据所述当前图像向量获得所述当前图像帧与所述当前镜头下的图像帧之间的匹配度。

本公开实施例中，假设集合D中一共包括J个图像帧，D_j表示当前镜头下的第j个图像帧，J为大于或等于1的正整数，j为大于或等于1且小于或等于J的正整数。可以获得D_j中包括哪些特征向量以及各个特征向量在D_j中的个数，例如b_n表示第n个特征向量在D_j中的个数。b_n为大于或等于0的整数，即当D_j中不包含某个特征向量时，其对应位置的b_n为0。即可以用一个N维的向量(b₁,b₂,…,b_n,…,b_N)来表示D_j中包括的各个特征向量的个数。

本公开实施例中，可以利用如下公式来表示构建的D_j的图像向量：

D_j＝(r₁×b₁,r₂×b₂,…,r_n×b_n,…,r_N×b_N) (12)

在示例性实施例中，根据所述当前图像向量获得所述当前图像帧与所述当前镜头下的图像帧之间的匹配度，包括：获得所述当前图像帧的当前特征向量数量信息，所述当前特征向量数量信息表示所述当前图像帧中包含的特征向量的数量；根据所述当前图像向量和所述当前特征向量数量信息获得所述当前图像帧与所述当前镜头下的图像帧之间的匹配度。

在一些实施例中，可以通过如下公式来计算当前图像帧与D_j之间的匹配度h(C,D_j)：

上述公式中，|| ||表示欧式范数或者称为L2范数，可以度量向量的大小或长度。即分别将向量C与D_j经过单一化后，再计算两者的匹配度，由此可以确保特征向量在尺度变换下保持不变性。

在另一些实施例中，可以通过如下公式来计算当前图像帧与D_j之间的匹配度h(C,D_j)：

上述公式中，N_C表示当前图像帧的当前特征向量数量信息，即当前图像帧中包含的特征向量的数量，N_C为大于或等于1的正整数。例如假设当前镜头下一共有10个特征向量，当前图像帧中包括第1,2,9个特征向量，那么N_C＝3。N_j表示D_j的特征向量数量信息，即D_j中包含的特征向量的数量，N_j为大于或等于1的正整数。例如假设当前镜头下一共有10个特征向量，N_j中包括第1,2,8个特征向量，那么N_j＝3。

本公开实施例中，h(C,D_j)越小，表示当前图像帧与集合D中的第j个图像帧之间越相似，反之，则越不相似。

由于不同图像帧中包含的信息量不同，不同的图像帧中提取的特征向量的数目也不同，含信息量比较大的图像帧会多次被检索到，对精度产生了很大的影响。本公开实施例使用改进的向量单位化方法，即使用当前图像向量C除以当前图像帧中包含的特征向量的数量的方式来对向量进行单位化，通过单位化后的向量来计算当前图像帧与当前镜头下各个图像帧之间的匹配度，由此可以克服上述误差。

在S140中，根据所述匹配度确定所述当前镜头下的图像帧中的候选帧。

在示例性实施例中，根据所述匹配度确定所述当前镜头下的图像帧中的候选帧，包括：根据所述匹配度从所述当前镜头下的图像帧中确定所述当前图像帧的相似图像帧；将满足时序间隔条件的相似图像帧与所述当前图像帧划分至当前图像集合中；从所述当前图像集合中确定所述当前镜头下的图像帧中的候选帧。

通过上述获得的匹配度，可以按照匹配度从小到大的顺序对集合D中的各个图像帧进行降序排列，选取前预定数量个图像帧或前预定百分比的图像帧作为该当前图像帧的相似图像帧。该预定数量或预定百分比可以根据实际场景设置，本公开对此不做限定。在下面的实施例中以预定数量＝10进行举例说明，由此可以根据匹配度检索到在该集合D中与该当前图像帧最相近的10张图像帧。

例如假设当前图像向量C中包括第1,2,9个特征向量，集合D中的第1个图像帧也包括第1,2,9个特征向量，第2个图像帧包括第1,2,8个特征向量，第3个图像帧包括第2,4,6个特征向量，则集合D中的第1和2个图像帧与当前图像帧是相似图像帧。

该集合D中也包括当前图像帧集合，因此上述相似图像帧中会包含当前图像帧本身，可以将该当前图像帧从相似图像帧中剔除。

本公开实施例中，该时序间隔条件可以依据待处理视频中的图像帧之间的时序间隔帧数，也可以根据图像帧之间的时序间隔时长等，本公开对此不做限定。例如，在获得上述相似图像帧之后，判断各相似图像帧在该待处理视频中的时序排序中，是否位于该当前图像帧前后预设帧以内，将时序排序在该当前图像帧前后预设帧以内的相似图像帧，与该当前图像帧聚为同一当前图像集合中；将时序排序不在该当前图像帧前后预设帧以内的相似图像帧，另开其它图像集合。该预设帧的取值可以根据实际场景设置，在下面的举例说明中，以预设帧为五帧进行说明，但本公开并不限定于此。

在示例性实施例中，从所述当前图像集合中确定所述当前镜头下的图像帧中的候选帧，包括：若所述当前图像集合为静态图像集合，则获得所述静态图像集合中包含的图像帧数；若所述静态图像集合中包含的图像帧数小于或等于第一值，则选取所述静态图像集合中的最后图像帧作为所述静态图像集合中的候选帧；若所述静态图像集合中包含的图像帧数大于所述第一值，则选取所述静态图像集合中第一图像帧和所述最后图像帧作为所述静态图像集合中的候选帧。

在示例性实施例中，从所述当前图像集合中确定所述当前镜头下的图像帧中的候选帧，包括：若所述当前图像集合为动态图像集合，则获得所述动态图像集合中包含的图像帧数；若所述动态图像集合中包含的图像帧数小于第一值，则选取所述动态图像集合中的任一图像帧作为所述动态图像集合中的候选帧；若所述动态图像集合中包含的图像帧数大于或等于所述第一值且小于或等于第二值，则选取所述动态图像集合中的任意两个图像帧作为所述动态图像集合中的候选帧；若所述动态图像集合中包含的图像帧数大于所述第二值，则选取所述动态集合中的前图像帧、中图像帧和后图像帧作为所述动态图像集合中的候选帧。

第一值，第二值的取值可以根据实际场景设置，本公开对此不做限定，下面的实施例中以第一值＝3，第二值＝4进行举例说明。对每一图像集合(包括当前图像集合和其它图像集合)，标记是静态图像集合或动态图像集合，区分规则如下：将图像集合中的图像帧按时序排列，然后将图像集合中相邻图像帧的各个对应像素值相减，累加该图像集合中所有的相邻图像帧的像素值的差得到该图像集合的帧差累积和，若帧差累积和超过帧差累积阈值T，即该对应的图像集合标记为动态图像集合，否则标记为静态图像集合。

本公开实施例中，帧差累积阈值T(threshold)定义为：T＝A-B，其中A为该图像集合中每个图像帧的帧差累积和的均值，B为该图像集合中每个图像帧的帧差累积和的标准差。运动是相对的，动态和静态(不含显著运动信息)是相对的，用帧差累积阈值来区分。

对于静态图像集合，若其中包含的图像帧数小于或等于3，则选取帧差累积最大的图像帧作为候选帧，即将该静态图像集合的最后一个图像帧(称之为最后图像帧)作为候选帧；若其中包含的图像帧数大于3，说明这个静态图像集合含的信息较多，则选取该静态图像集合中的第1个和最后1个图像帧(分别称之为第一图像帧和最后图像帧)作为候选帧。这样充分考虑了比较重要的静态的图像帧中所含的信息。

对于动态图像集合，若其中包含的图像帧数小于3，就选取该动态图像集合中的任意一个图像帧作为候选帧；若其中包含的图像帧数为3个～4个，就随机选取该动态图像集合中任意2个图像帧作为候选帧，这样能保证保留充分的运动信息；其中包含的图像帧数大于5个，则选取该动态图像集合中的前、中、后图像帧作为候选帧，从而可以保留很好的运动信息。

在S150中，根据所述待处理视频各个镜头下的图像帧中的候选帧，获得所述待处理视频中的摘要帧，并根据所述摘要帧生成所述待处理视频的摘要视频，所述待处理视频各个镜头中包括所述当前镜头。

本公开实施例的视频摘要生成系统还可以包括视频摘要生成模块，用于对各个镜头下的候选帧进行筛选，选择包含信息的候选帧组成摘要帧。

本公开实施例提供的视频摘要生成方法，通过计算机设备的自动化处理，获得待处理视频在当前镜头下的图像帧中的特征向量，然后根据当前镜头下的图像帧中的特征向量，构建当前图像帧的当前图像向量，再根据当前图像向量获得当前图像帧与当前镜头下的各个图像帧之间的匹配度，根据匹配度确定当前镜头下的图像帧中的候选帧，从而可以根据待处理视频各个镜头下的图像帧中的候选帧获得待处理视频中的摘要帧，并根据摘要帧生成待处理视频的摘要视频，不需要人为去筛选，均由计算机设备自动执行，提升了效率，并避免了人为主观引入的错误和忽略。

图2实施例以颜色缺失度为HS缺失度，特征向量为SIFT特征向量对本公开实施例提供的方法进行举例说明，但本公开并不限定于此。如图2所示，本公开实施例提供的方法可以包括以下步骤。

在S201中，利用HS缺失度对待处理视频进行镜头分割。

在S202中，采用SIFT对各个镜头下的图像帧进行处理，提取各个镜头下的图像帧中的SIFT特征向量，并计算各SIFT特征向量的重要度。

在S203中，根据各个镜头下的当前图像帧中包含的各个SIFT特征向量的个数以及对应SIFT特征向量的重要度，构建各个镜头下的当前图像帧的当前图像向量；根据各个镜头下的各个图像帧中包含的各个SIFT特征向量的个数以及对应SIFT特征向量的重要度，构建各个镜头下的各个图像帧的图像向量。

在S204中，根据各个镜头下的当前图像帧的当前特征向量数量信息对当前图像向量进行单位化处理，根据各个镜头下的各个图像帧的特征向量数量信息对各个图像帧的图像向量进行单位化处理，以获得各个镜头下的当前图像帧与对应镜头下的各个图像帧之间的匹配度。

在S205中，从同一镜头下的图像帧中选择匹配度最大的前10个图像帧作为该镜头下的当前图像帧的相似图像帧。

在S206中，将时序上处于该当前图像帧前后五个帧内的相似图像帧与该当前图像帧划分至当前图像集合中，反之则另生成其它图像集合。

在S207中，判断当前图像集合(其它图像集合的处理类似当前图像集合，这里以当前图像集合的处理举例说明)是否为静态图像集合或动态图像集合；如果是静态图像集合，则执行S208；如果是动态图像集合，则执行S211。

在S208中，判断静态图像集合中的图像帧数是否小于或等于3；如果小于或等于3，则执行S209；如果大于3，则执行S210。

在S209中，选取静态图像集合中的最后图像帧作为候选帧。

在S210中，选取静态图像集合中的第一图像帧和最后图像帧作为候选帧。

在S211中，判断动态图像集合中的图像帧数是否小于3；如果小于3，则执行S212；如果大于或等于3，则执行S213。

在S212中，选取动态图像集合中的任一图像帧作为候选帧。

在S213中，判断动态图像集合中的图像帧数是否大于或等于3且小于或等于4；如果是，则执行S214；反之，则执行S215。

在S214中，选取动态图像集合中的任意两个图像帧作为候选帧。

在S215中，选取动态图像集合中的前、中、后图像帧作为候选帧。

在S216中，去掉候选帧中的剧情切换帧。具体参考下述图6实施例。

在S217中，将背景相同、特征区域相似的候选帧合成为摘要帧。具体参考下述图7和图8实施例。

在S218中，按时序拼接各个镜头下的摘要帧，生成摘要视频。

本公开实施方式提供的方法，一方面，使用SIFT算法提取图像帧中的特征向量，具备自动化能力，不需要用户看完全部视频，提高视频摘要提取的效率。另一方面，在选取候选帧时，兼顾了动态图像集合和静态图像集合的信息，尽可能保留信息。此外，采用HS缺失度进行镜头分割，不仅克服了渐变镜头分割不准确的问题，而且对于相机引起的运动也能划分为一个镜头，减少了镜头分类的复杂度。HS缺失度将图像帧的每个像素表示为其在色相-饱和度颜色空间中的坐标。色相/色调表示颜色的种类(如红色、绿色、蓝色等)，而饱和度表示颜色的纯度或鲜艳程度。通过这两个特征，HS缺失度可以更好地捕捉到颜色信息，而不受光照变化的影响。因为运动只是画面中物体位置移动，颜色通常不会发生太多改变。同时，采用新的匹配度实现机制，向量经过单位化，消除SIFT大数据条件下的误差。在一些实施例中，对关键的候选帧进行二次处理，去掉不包含信息的剧情切换帧，充分考虑大部分视频本身切镜的特点进行处理。

在本公开的一些实施例中，可以基于提取的特征向量构建一棵树，该树的各个叶子节点即对应提取出来的特征向量。例如上述假设有N个特征向量，则有N个叶子节点。下面结合图3和图4来举例说明树的构建过程。

如图3所示，首先得到N个特征向量(图3中每个空心圆代表一个特征向量)的平均值，定义为S，作为树的根节点。本公开实施例根据各个类的半径以及各个类的聚类中心R与特征向量P间的距离来自动进行聚类，在距离阈值的限制下，自动确定聚类数目。初始时，将根节点S作为N个特征向量的聚类中心R。

具体的，根据如下公式：

||P－Q||≤||P－R||+||R－Q|| (15)

上述公式中，P和Q分别为N个特征向量的任意两个不同的特征向量。从P开始，Q是其他任意一个特征向量，若P和Q之间的满足上述公式(15)，就把Q和P聚到一起，先归为一类，若不满足，再另确定一个未遍历过的特征向量作为新的P，按照上述方式如此循环，把所有特征向量遍历一次。对于任意一个特征向量都经过上述原理来进行聚类，然后得到各个类的半径和各个类到根节点的最大距离，再根据距离阈值判断是否要进行二次聚类。公式(15)是空间中的三角不等式，距离阈值是指构建锐角三角形或某个度数的三角形，指某一类中的向量和它们这一层的根节点，在空间中不超过距离阈值度数的三角形。

例如这里是锐角三角形。一次迭代得到如图3所示的结果，即假设分为了三类，类31，类32和类33。将各个类内的所有特征向量求平均值作为对应类的聚类中心，以此确定各个类的半径。每个类与根节点最大距离就是对应类内的所有特征向量与根节点的距离之中取最大值。然后将类的半径和各个类的最大距离相加，若相加之和超过距离阈值，则判定该类需要进行二次聚类。如果相加之和未超过距离阈值，则可以直接将该类中的特征向量作为树的叶子节点。

如图4所示，假设类31与根节点之间的最大距离太远，类32的半径太大，都超过距离阈值(根据数据特点确定距离阈值)，所以需要二次聚类，类33看起来很合适，其中的各个特征向量直接成为叶子节点。类31中所有特征向量求平均值，确定类31的根节点S1。类32中所有特征向量求平均值，确定类32的根节点S2。二次聚类加深了层数，S1，S2作为新的根节点再次采用上述类似的方式进行聚类。图4中假设新的根节点S1下二次聚类得到类311和312，新的根节点S2下二次聚类得到类321和322，直至所有特征向量变为叶子节点。在节点中保留有各分支节点与其的距离信息，在进行图像检索时，直接利用已有欧式距离信息，减少向量之间距离的计算，直接确定最短路径。

如图5所示，在得到一个完整的树之后，再构造各个叶子节点的倒排文件，叶子节点包含对应特征向量的重要度和倒排文件，通过该倒排文件存储对应叶子节点一个维数同当前镜头下的所有图像帧数目相同的数组，每一维代表对应图像帧中包含的特征向量的数目。例如叶子节点n的倒排文件为(e_n,1,e_n,2,…,e_n,J)，即第j个图像帧中包含第n个特征向量的个数为e_n,j。之后可以通过检索叶子节点的倒排文件来构造上述向量C和D_j。

本公开实施例中，叶子节点对应的特征向量本身可以不保存，以避免占据太大的空间，代替的是其所属的ID编号，例如图5中，按照叶子节点的顺序，依次确定各叶子节点的ID编号为1至N。

在示例性实施例中，根据所述待处理视频各个镜头下的图像帧中的候选帧，获得所述待处理视频中的摘要帧，包括：确定所述候选帧中的剧情切换帧；去掉所述候选帧中的所述剧情切换帧，从剩余候选帧中确定所述待处理视频中的摘要帧。

在示例性实施例中，确定所述候选帧中的剧情切换帧，包括：获得所述待处理视频中的中间图像帧；选取所述中间图像帧中包含像素最多的颜色以生成纯色图像帧；获得所述候选帧与所述纯色图像帧之间的颜色缺失度；将与所述纯色图像帧之间的颜色缺失度小于颜色缺失度阈值的候选帧确定为所述剧情切换帧。

本公开实施例中，待处理视频中的剧情切换帧在镜头分割时，会单独分割为一个镜头，因此也会被识别为候选帧，但其实际上并不包含所需的信息内容，因此，通过本公开实施例提供的方法将其去除。

具体的，首先剧情切换帧不考虑片头和片尾，即在中间图像帧(待处理视频中除了片头和片尾以外的所有帧)中，选取所含像素最多的颜色作为纯色图像帧，然后将候选帧与纯色图像帧进行颜色缺失度对比，如果某个候选帧与纯色图像帧中的一个相差不到颜色缺失度阈值(例如20％，但这里仅用于举例说明，本公开并不限定于此)，就会被去掉。需要说明的是，纯色图像帧不限于全黑图像帧和全白图像帧，统计这所有的中间图像帧中哪种颜色的像素点最多，则将这种颜色的图像帧作为纯色图像帧，例如假设蓝色或黄色的像素点最多，生成纯蓝或纯黄图像帧，如果有的候选帧使用这种颜色作为剧情切换帧，也将其去掉。

如图6所示，图片上有叉的表示是去掉的剧情切换帧。

在示例性实施例中，根据所述待处理视频各个镜头下的图像帧中的候选帧，获得所述待处理视频中的摘要帧，包括：从所述候选帧中确定背景区域相同且特征区域的相似度大于相似度阈值的第一候选帧和第二候选帧；剪切所述第一候选帧和所述第二候选帧中的特征区域以与所述背景区域形成所述摘要帧。

本公开实施例中，可以分别提取各个候选帧的背景部分和特征区域。当两张候选帧背景相同，特征区域相近(即相似度大于相似度阈值)时，将该两张候选帧中特征区域剪切到同一背景中形成大图作为摘要帧。

如图7所示，左侧第一候选帧中特征区域有黑板、书架，完全的人甲，不完整的人乙和不完整的人丙，右侧第二候选帧中特征区域有不完整的书架，不完全的人甲，完整的人乙，完整的人丙和城堡，则会合成为如图8所示的摘要帧，合成的摘要帧中同时包含：黑板、书架，完全的人甲，完整的人乙，完整的人丙，城堡。

未被去除的候选帧，以及不需要经过合并的候选帧直接作为摘要帧，将摘要帧按时序排列，从而生成一个精简而又充分考虑到运动信息的摘要视频。

本公开实施例利用SIFT算法对视频关键帧进行聚类处理，可以有效提高视频摘要的全面性，并提高效率。可以应用于相似图片搜索，监控视频快速查看。对监控视频、会议视频等长记录视频进行快速准确的处理以产生视频摘要，以便更快速地解决问题。

可以理解的是，计算机设备可以是服务器或终端，也可以是服务器和终端组成的系统。其中，以上所提及的终端可以是一种电子设备，包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(Augmented Reality/VirtualReality，AR/VR)设备、头盔显示器、智能电视、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device，MID)，或者火车、轮船、飞行等场景下的终端等。

其中，以上所提及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

可选的，本公开实施例中所涉及的数据可以存储在计算机设备中，或者可以基于云存储技术对该数据进行存储，在此不做限制。

图9是本公开实施例提供的一种视频摘要生成装置的示意图。如图9所示，本公开实施例提供的视频摘要生成装置900可以包括特征向量获得单元910、图像向量构建单元920、匹配度获得单元930、候选帧确定单元940以及视频摘要生成单元950。

特征向量获得单元910用于获得待处理视频在当前镜头下的图像帧中的特征向量。图像向量构建单元920用于根据所述当前镜头下的图像帧中的特征向量，构建当前图像帧的当前图像向量，所述当前镜头下的图像帧包括所述当前图像帧。匹配度获得单元930用于根据所述当前图像向量获得所述当前图像帧与所述当前镜头下的图像帧之间的匹配度。候选帧确定单元940用于根据所述匹配度确定所述当前镜头下的图像帧中的候选帧。视频摘要生成单元950用于根据所述待处理视频各个镜头下的图像帧中的候选帧，获得所述待处理视频中的摘要帧，并根据所述摘要帧生成所述待处理视频的摘要视频，所述待处理视频各个镜头中包括所述当前镜头。

在示例性实施例中，特征向量获得单元910包括：镜头分割子单元，用于对所述待处理视频进行镜头分割，确定所述待处理视频在各个镜头下的图像帧；特征向量提取子单元，用于提取所述待处理视频中的所述当前镜头下的图像帧中的特征向量。

在示例性实施例中，镜头分割子单元还用于：获得所述待处理视频中的图像帧的颜色直方图；根据所述待处理视频中相邻图像帧的颜色直方图，获得所述待处理视频中相邻图像帧之间的颜色缺失度；根据所述待处理视频中相邻图像帧之间的颜色缺失度对所述待处理视频中的图像帧进行镜头分割，确定所述待处理视频在各个镜头下的图像帧。

在示例性实施例中，图像向量构建单元920包括：图像帧特征向量个数获得子单元，用于获得所述当前图像帧中包括的各个特征向量的个数；特征向量重要度获得子单元，用于获得所述当前镜头下的图像帧中的特征向量的重要度；当前图像向量构建子单元，用于根据所述当前图像帧中包括的各个特征向量的个数以及对应特征向量的重要度，构建所述当前图像向量。

在示例性实施例中，特征向量重要度获得子单元还用于：获得所述当前镜头下的图像帧的帧数量信息；获得在所述当前镜头下包含所述特征向量的帧数信息；根据所述当前镜头下的图像帧的帧数量信息和在所述当前镜头下包含所述特征向量的帧数信息，获得所述特征向量的重要度。

在示例性实施例中，匹配度获得单元930包括：当前特征向量数量信息获得子单元，用于获得所述当前图像帧的当前特征向量数量信息，所述当前特征向量数量信息表示所述当前图像帧中包含的特征向量的数量；匹配度获得子单元，用于根据所述当前图像向量和所述当前特征向量数量信息获得所述当前图像帧与所述当前镜头下的图像帧之间的匹配度。

在示例性实施例中，候选帧确定单元940包括：相似图像帧确定子单元，用于根据所述匹配度从所述当前镜头下的图像帧中确定所述当前图像帧的相似图像帧；当前图像集合划分子单元，用于将满足时序间隔条件的相似图像帧与所述当前图像帧划分至当前图像集合中；候选帧确定子单元，用于从所述当前图像集合中确定所述当前镜头下的图像帧中的候选帧。

在示例性实施例中，候选帧确定子单元还用于：若所述当前图像集合为静态图像集合，则获得所述静态图像集合中包含的图像帧数；若所述静态图像集合中包含的图像帧数小于或等于第一值，则选取所述静态图像集合中的最后图像帧作为所述静态图像集合中的候选帧；若所述静态图像集合中包含的图像帧数大于所述第一值，则选取所述静态图像集合中第一图像帧和所述最后图像帧作为所述静态图像集合中的候选帧。

在示例性实施例中，候选帧确定子单元还用于：若所述当前图像集合为动态图像集合，则获得所述动态图像集合中包含的图像帧数；若所述动态图像集合中包含的图像帧数小于第一值，则选取所述动态图像集合中的任一图像帧作为所述动态图像集合中的候选帧；若所述动态图像集合中包含的图像帧数大于或等于所述第一值且小于或等于第二值，则选取所述动态图像集合中的任意两个图像帧作为所述动态图像集合中的候选帧；若所述动态图像集合中包含的图像帧数大于所述第二值，则选取所述动态集合中的前图像帧、中图像帧和后图像帧作为所述动态图像集合中的候选帧。

在示例性实施例中，视频摘要生成单元950包括：剧情切换帧确定子单元，用于确定所述候选帧中的剧情切换帧；摘要帧确定子单元，用于去掉所述候选帧中的所述剧情切换帧，从剩余候选帧中确定所述待处理视频中的摘要帧。

在示例性实施例中，剧情切换帧确定子单元还用于：获得所述待处理视频中的中间图像帧；选取所述中间图像帧中包含像素最多的颜色以生成纯色图像帧；获得所述候选帧与所述纯色图像帧之间的颜色缺失度；将与所述纯色图像帧之间的颜色缺失度小于颜色缺失度阈值的候选帧确定为所述剧情切换帧。

在示例性实施例中，视频摘要生成单元950还用于：从所述候选帧中确定背景区域相同且特征区域的相似度大于相似度阈值的第一候选帧和第二候选帧；剪切所述第一候选帧和所述第二候选帧中的特征区域以与所述背景区域形成所述摘要帧。

图9实施例的其它内容可以参照其它实施例。

参见图10，图10是本公开实施例提供的一种计算机设备的结构示意图。如图10所示，本公开实施例中的计算机设备可以包括：一个或多个处理器1001、存储器1002和输入输出接口1003。该处理器1001、存储器1002和输入输出接口1003通过总线1004连接。存储器1002用于存储计算机程序，该计算机程序包括程序指令，输入输出接口1003用于接收数据及输出数据，如用于宿主机与计算机设备之间进行数据交互，或者用于在宿主机中的各个虚拟机之间进行数据交互；处理器1001用于执行存储器1002存储的程序指令。

其中，该处理器1001可以执行如下操作：获得待处理视频在当前镜头下的图像帧中的特征向量；根据所述当前镜头下的图像帧中的特征向量，构建当前图像帧的当前图像向量，所述当前镜头下的图像帧包括所述当前图像帧；根据所述当前图像向量获得所述当前图像帧与所述当前镜头下的图像帧之间的匹配度；根据所述匹配度确定所述当前镜头下的图像帧中的候选帧；根据所述待处理视频各个镜头下的图像帧中的候选帧，获得所述待处理视频中的摘要帧，并根据所述摘要帧生成所述待处理视频的摘要视频，所述待处理视频各个镜头中包括所述当前镜头。

在一些可行的实施方式中，该处理器1001可以是中央处理单元(centralprocessing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器1002可以包括只读存储器和随机存取存储器，并向处理器1001和输入输出接口1003提供指令和数据。存储器1002的一部分还可以包括非易失性随机存取存储器。例如，存储器1002还可以存储设备类型的信息。

具体实现中，该计算机设备可通过其内置的各个功能模块和/或单元和/或子单元执行如上述任一方法实施例中各个步骤所提供的实现方式，具体可参见上述方法实施例所示图中各个步骤所提供的实现方式，在此不再赘述。

本公开实施例通过提供一种计算机设备，包括：处理器、输入输出接口、存储器，通过处理器获取存储器中的计算机程序，执行上述任一实施例中所示方法的各个步骤。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序适于由该处理器加载并执行上述任一实施例中各个步骤所提供的视频摘要生成方法，具体可参见该上述任一实施例中各个步骤所提供的实现方式，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本公开所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本公开方法实施例的描述。作为示例，计算机程序可被部署为在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行。

该计算机可读存储介质可以是前述任一实施例提供的视频摘要生成装置或者该计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本公开实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一实施例中的各种可选方式中所提供的方法。

本公开实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在该说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

本公开实施例提供的方法及相关装置是参照本公开实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程应用显示设备的处理器以产生一个机器，使得通过计算机或其他可编程应用显示设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程应用显示设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程应用显示设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本公开较佳实施例而已，当然不能以此来限定本公开之权利范围，因此依本公开权利要求所作的等同变化，仍属本公开所涵盖的范围。

Claims

1.一种视频摘要生成方法，其特征在于，包括：

获得待处理视频在当前镜头下的图像帧中的特征向量；

根据所述当前镜头下的图像帧中的特征向量，构建当前图像帧的当前图像向量，所述当前镜头下的图像帧包括所述当前图像帧；

根据所述当前图像向量获得所述当前图像帧与所述当前镜头下的图像帧之间的匹配度；

根据所述匹配度确定所述当前镜头下的图像帧中的候选帧；

根据所述待处理视频各个镜头下的图像帧中的候选帧，获得所述待处理视频中的摘要帧，并根据所述摘要帧生成所述待处理视频的摘要视频，所述待处理视频各个镜头中包括所述当前镜头。

2.如权利要求1所述的方法，其特征在于，获得待处理视频在当前镜头下的图像帧中的特征向量，包括：

对所述待处理视频进行镜头分割，确定所述待处理视频在各个镜头下的图像帧；

提取所述待处理视频中的所述当前镜头下的图像帧中的特征向量。

3.如权利要求2所述的方法，其特征在于，对所述待处理视频进行镜头分割，确定所述待处理视频在各个镜头下的图像帧，包括：

获得所述待处理视频中的图像帧的颜色直方图；

根据所述待处理视频中相邻图像帧的颜色直方图，获得所述待处理视频中相邻图像帧之间的颜色缺失度；

根据所述待处理视频中相邻图像帧之间的颜色缺失度对所述待处理视频中的图像帧进行镜头分割，确定所述待处理视频在各个镜头下的图像帧。

4.如权利要求1所述的方法，其特征在于，根据所述当前镜头下的图像帧中的特征向量，构建当前图像帧的当前图像向量，包括：

获得所述当前图像帧中包括的各个特征向量的个数；

获得所述当前镜头下的图像帧中的特征向量的重要度；

根据所述当前图像帧中包括的各个特征向量的个数以及对应特征向量的重要度，构建所述当前图像向量。

5.如权利要求4所述的方法，其特征在于，获得所述当前镜头下的图像帧中的特征向量的重要度，包括：

获得所述当前镜头下的图像帧的帧数量信息；

获得在所述当前镜头下包含所述特征向量的帧数信息；

根据所述当前镜头下的图像帧的帧数量信息和在所述当前镜头下包含所述特征向量的帧数信息，获得所述特征向量的重要度。

6.如权利要求1所述的方法，其特征在于，根据所述当前图像向量获得所述当前图像帧与所述当前镜头下的图像帧之间的匹配度，包括：

获得所述当前图像帧的当前特征向量数量信息，所述当前特征向量数量信息表示所述当前图像帧中包含的特征向量的数量；

根据所述当前图像向量和所述当前特征向量数量信息获得所述当前图像帧与所述当前镜头下的图像帧之间的匹配度。

7.如权利要求1所述的方法，其特征在于，根据所述匹配度确定所述当前镜头下的图像帧中的候选帧，包括：

根据所述匹配度从所述当前镜头下的图像帧中确定所述当前图像帧的相似图像帧；

将满足时序间隔条件的相似图像帧与所述当前图像帧划分至当前图像集合中；

从所述当前图像集合中确定所述当前镜头下的图像帧中的候选帧。

8.如权利要求7所述的方法，其特征在于，从所述当前图像集合中确定所述当前镜头下的图像帧中的候选帧，包括：

若所述当前图像集合为静态图像集合，则获得所述静态图像集合中包含的图像帧数；

若所述静态图像集合中包含的图像帧数小于或等于第一值，则选取所述静态图像集合中的最后图像帧作为所述静态图像集合中的候选帧；

若所述静态图像集合中包含的图像帧数大于所述第一值，则选取所述静态图像集合中第一图像帧和所述最后图像帧作为所述静态图像集合中的候选帧。

9.如权利要求7所述的方法，其特征在于，从所述当前图像集合中确定所述当前镜头下的图像帧中的候选帧，包括：

若所述当前图像集合为动态图像集合，则获得所述动态图像集合中包含的图像帧数；

若所述动态图像集合中包含的图像帧数小于第一值，则选取所述动态图像集合中的任一图像帧作为所述动态图像集合中的候选帧；

若所述动态图像集合中包含的图像帧数大于或等于所述第一值且小于或等于第二值，则选取所述动态图像集合中的任意两个图像帧作为所述动态图像集合中的候选帧；

若所述动态图像集合中包含的图像帧数大于所述第二值，则选取所述动态集合中的前图像帧、中图像帧和后图像帧作为所述动态图像集合中的候选帧。

10.如权利要求1所述的方法，其特征在于，根据所述待处理视频各个镜头下的图像帧中的候选帧，获得所述待处理视频中的摘要帧，包括：

确定所述候选帧中的剧情切换帧；

去掉所述候选帧中的所述剧情切换帧，从剩余候选帧中确定所述待处理视频中的摘要帧。

11.如权利要求10所述的方法，其特征在于，确定所述候选帧中的剧情切换帧，包括：

获得所述待处理视频中的中间图像帧；

选取所述中间图像帧中包含像素最多的颜色以生成纯色图像帧；

获得所述候选帧与所述纯色图像帧之间的颜色缺失度；

将与所述纯色图像帧之间的颜色缺失度小于颜色缺失度阈值的候选帧确定为所述剧情切换帧。

12.如权利要求1所述的方法，其特征在于，根据所述待处理视频各个镜头下的图像帧中的候选帧，获得所述待处理视频中的摘要帧，包括：

从所述候选帧中确定背景区域相同且特征区域的相似度大于相似度阈值的第一候选帧和第二候选帧；

剪切所述第一候选帧和所述第二候选帧中的特征区域以与所述背景区域形成所述摘要帧。

13.一种视频摘要生成装置，其特征在于，包括：

特征向量获得单元，用于获得待处理视频在当前镜头下的图像帧中的特征向量；

图像向量构建单元，用于根据所述当前镜头下的图像帧中的特征向量，构建当前图像帧的当前图像向量，所述当前镜头下的图像帧包括所述当前图像帧；

匹配度获得单元，用于根据所述当前图像向量获得所述当前图像帧与所述当前镜头下的图像帧之间的匹配度；

候选帧确定单元，用于根据所述匹配度确定所述当前镜头下的图像帧中的候选帧；

视频摘要生成单元，用于根据所述待处理视频各个镜头下的图像帧中的候选帧，获得所述待处理视频中的摘要帧，并根据所述摘要帧生成所述待处理视频的摘要视频，所述待处理视频各个镜头中包括所述当前镜头。

14.一种计算机设备，其特征在于，包括处理器、存储器、输入输出接口；

所述处理器分别与所述存储器和所述输入输出接口相连，其中，所述输入输出接口用于接收数据及输出数据，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1-12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-12任一项所述的方法。