CN110381392B

CN110381392B - 一种视频摘要提取方法及其系统、装置、存储介质

Info

Publication number: CN110381392B
Application number: CN201910493315.7A
Authority: CN
Inventors: 罗兵; 周巨; 黄月琴
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2021-08-10
Anticipated expiration: 2039-06-06
Also published as: CN110381392A

Abstract

本发明公开了一种视频摘要提取方法及其系统、装置、存储介质，根据时间消耗从小到大依次使用不同的帧图像特征提取算法进行进行分层聚类，逐层减少需要处理的帧图像，最后对每个得到的分割的视频片段所提出候选视频摘要提取全局特征，生成最后的视频摘要。相较于现有方法，不需要考虑不同特征权重问题，时间消耗大幅减少，具有鲁棒性好，速度快，效果好的优点。

Description

一种视频摘要提取方法及其系统、装置、存储介质

技术领域

本发明涉及视频处理技术领域，尤其是一种基于多特征相似度视频摘要提取方法及其系统、装置、存储介质。

背景技术

当下，随着诸多视频APP和视频简便编辑工具的出现，大量由用户自制上传的视频开始大量出现，正常情况下，人们观看视频所花费的时间是与视频时长一致的。这就导致了一个问题，在当今拥有海量视频的网站或软件上，用户如何快速通过正确的视频摘要精准的找到自己感兴趣的部分和如何快速对用户上传的视频进行分类，将其正确分类到不同索引下，就成了一个有价值的研究问题。数量的剧增，提供了研究的热度，也使得对视频进行分类和视频摘要提取变得更加复杂。特别是大量的用户自制视频，视频中往往包含多个场景，多个动作以及拍摄的随意性，大量美颜，特效表情的加入，对视频进行处理的难度也大大的增大。视频分割和视频摘要提取技术能够去除需要处理的长视频中长时间的冗余重复片段，根据需求提取出有用的片段和关键帧进行视频索引，并能够根据传统特征将视频分割成基于内容的片段，有利于后期视频的分类和视频摘要提取，特别是在热门的基于神经网络处理视频的很多方法中，如何选取代表整个视频内容的关键帧送入神经网络模型，是一个不可避免的问题。然而传统的视频摘要提取存在时间消耗大、算法复杂、效果不佳的问题，亟待改进。

发明内容

为解决上述问题，本发明的目的在于提供一种视频摘要提取方法及其系统、装置、存储介质，根据时间消耗从小到大依次使用不同的帧图像特征提取算法进行进行分层聚类，逐层减少需要处理的帧图像，最后对每个得到的分割的视频片段所提出候选视频摘要提取全局特征，生成最后的视频摘要。相较于现有方法，不需要考虑不同特征权重问题，时间消耗大幅减少，具有鲁棒性好，速度快，效果好的优点。

本发明解决其问题所采用的技术方案是：

第一方面，本发明实施例提出了一种视频摘要提取方法，包括：

将原始视频解码得到帧图像；

根据时间消耗从小到大依次使用不同的帧图像特征提取算法进行视频分割，得到分割的时序片段；

对每个时序片段提出的候选视频摘要进行全局特征提取，选择关键帧输出；

对关键帧进行聚类，生成最终视频摘要。

进一步，所述将原始视频解码得到帧图像，包括：

将原始视频解码成帧进行预采样得到需要的帧图像，在此过程中丢弃解码失败以及结尾处存在的空帧。

进一步，所述帧图像特征提取算法包括用于帧图像特征初步聚类的Hash算法、用于帧图像特征二次聚类的HSV算法和用于帧图像特征三次聚类的ORB算法，所述HSV算法中，提取帧图像的HSV颜色特征，取H通道及S通道生成颜色直方图，舍弃HSV颜色直方图中的V通道。

进一步，所述根据时间消耗从小到大依次使用不同的帧图像特征提取算法进行视频分割，得到分割的时序片段，包括：

根据时间消耗从小到大依次使用Hash算法、HSV算法以及ORB算法对帧图像进行分层聚类，逐层减少需要处理的帧图像，得到分割的时序片段。

进一步，所述对每个时序片段提出的候选视频摘要进行全局特征提取，选择关键帧输出，包括：

统计二次聚类中时序片段所含颜色信息最多的局部极值帧以及三次聚类中时序片段特征点最多的局部极值帧并提取作为关键帧输出。

进一步，所述对关键帧进行聚类，生成最终视频摘要，包括：

使用欧氏距离对关键帧提取全局特征进行聚类，并在同类中选出局部最具代表性的帧作为静态视频摘要进行输出。

第二方面，本发明实施例还提出了一种视频摘要提取系统，包括：

视频解码单元，用于将原始视频解码得到帧图像；

视频分割单元，用于根据时间消耗从小到大依次使用不同的帧图像特征提取算法进行视频分割，得到分割的时序片段；

关键帧选取单元，用于对每个时序片段提出的候选视频摘要进行全局特征提取，选择关键帧输出；

生成视频摘要单元，用于对关键帧进行聚类，生成最终视频摘要。

第三方面，本发明实施例还提出了一种视频摘要提取装置，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明第一方面所述的方法。

第四方面，本发明实施例还提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行本发明第一方面所述的方法。

本发明实施例中提供的一个或多个技术方案，至少具有如下有益效果：本发明提供的一种视频摘要提取方法及其系统、装置、存储介质，区别于现有方法中通过对每帧图像都进行多特征的一个提取，而是采用倒金字塔聚类处理模型，根据时间消耗从小到大依次使用不同的特征提取算法进行分层聚类，逐层减少需要处理的帧图像，把时间消耗大的放在后面，总体上减少了时间消耗，大大减少计算时间，且能够很好的保留的时序信息。本发明相对于现有方法具有如下优势：(1)计算时间大大缩短；(2)克服了局部特征提取过程中在多个场景区分时表现差于提取全局特征的不足，最后一步提出候选关键帧后，提取了候选关键帧的全局特征生成最终视频摘要；(3)能够根据视频内容生成自适应数量的视频摘要数目。

附图说明

下面结合附图和实例对本发明作进一步说明。

图1是本发明第一实施例中视频摘要提取方法的流程简图；

图2是本发明第一实施例中视频摘要提取方法的整体模型结构示意图；

图3是本发明第一实施例中视频摘要提取方法中单个关键帧选取示意图；

图4是本发明第一实施例中视频摘要提取方法中多个关键帧选取示意图；

图5是本发明第一实施例中视频摘要提取方法中全局特征提取示意图；

图6是本发明第一实施例中视频摘要提取方法的整体流程示意图；

图7-11分别是本发明第一实施例中VSUMM数据集V14视频用户1-5静态视频摘要；

图12是本发明第一实施例中通过方法一输出的结果图；

图13是本发明第一实施例中通过方法二输出的结果图；

图14是本发明第二实施例中视频摘要提取系统的结构简图；

图15是本发明第三实施例中视频摘要提取装置的结构简图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

下面结合附图，对本发明实施例作进一步阐述。

如图1所示，本发明的第一实施例提供了一种视频摘要提取方法，包括但不限于以下步骤：

S100:将原始视频解码得到帧图像；

S200:根据时间消耗从小到大依次使用不同的帧图像特征提取算法进行视频分割，得到分割的时序片段；

S300:对每个时序片段提出的候选视频摘要进行全局特征提取，选择关键帧输出；

S400:对关键帧进行聚类，生成最终视频摘要。

其中，帧图像特征提取算法包括用于帧图像特征初步聚类的Hash算法(差异值哈希算法)、用于帧图像特征二次聚类的HSV算法(HSV颜色特征提取算法)和用于帧图像特征三次聚类的ORB算法((Oriented FAST and Rotated BRIEF)。需要指出的是，HSV算法作了改进，在提取帧图像的HSV颜色特征时，取H通道及S通道生成颜色直方图，舍弃HSV颜色直方图中的V通道。

本发明就整个视频帧进行相似度比对的处理模型进行了改进，没有像以往方法一样，对每帧图像都进行多特征的一个提取而是采取了倒金字塔式的处理方式，先将速度快特征相似度对比放在最前面，完成初步分割后，使用另外特征进行相似度比对时，不再依然提取所有视频帧，而是只提取前一个视频片段的最后一帧与后一个视频第一帧进行比对即可。整个过程采用原则就是前面使用的特征尽可能快，让原视频分割的尽可能碎片化。

在HSV颜色特征提取技术上，本发明也进行了改进。舍弃了HSV颜色直方图中的V通道。正常的视频解码出来的帧图像一般是采用RGB模型进行显示。传统方法中很多通过RGB颜色直方图来判断图像的颜色特征相似度。虽然判断的方法有很多，例如有卡方比较(Chi-Square)、十字交叉性(Intersection)、巴氏距离(Bhattacharyya distance)等，在一定程度上能增加此类方法的精度问题。但是由于RGB颜色空间中的三种颜色并不是单独表现，而是共同表现，从理论层面就决定该种方法有一种缺陷。针对此缺陷，本发明采用了改进型HSV颜色直方图方法对帧图像的颜色特征进行处理。同时如果直接使用直方图对所需比较的帧图像进行相似度分析，由于初步的分割产生的分段视频依然较多，加之直方图计算量大，耗费时间多。同时由于视频往往是由手持设备拍摄，各种轻微的抖动和移动导致的相机角度变化都会造成颜色明度的变化，然而实际上视频内容并没有太大变化，容易造成误判，将相同内容错误的分割开来。为了节省计算时间并减少误差，本发明将只对H、S通道进行处理。

在关键帧的选取技术上，本发明根据模型特点进行了改进。在提取HSV特征过程中归一化的时候把需要计算所含直方图的总数，以及步骤四中需要比较特征点数量，进行分别统计，把第二次聚类片段中所含颜色信息最多的局部极值帧以及第三次聚类片段中特征点最多的局部极值帧提取出来，在这些帧图像里同时参考两项指标，将这些帧进行提取，作为最后分割片段中的关键帧输出。在遇到极值帧较多的情况下，本发明综合考量，设定合适的加权办法对包含的多个极值帧的片段进行选择，选择出所对应的关键帧。也可以对加权结果设定阈值，自适应输出多张关键帧图像。

在最终视频摘要的输出上，本发明进行了改进，提出了两种方法以满足不同的需求。正常而言，选择的关键帧图像就能代表最后的静态视频摘要，但是这样选出来的关键帧是基于时序信息的。也就是说，选出来的是每一段分割好的时序片段中的视频摘要，如果原始视频本身时序就有重复，那么选出的关键帧就会有重复，视频摘要就会有重复，这是由于局部特征本身的局限性造成的，我们再次使用欧氏距离对关键帧提取全局特征进行聚类，并在同类中选出局部最具代表性的帧作为静态视频摘要进行输出。针对不同的任务，如果是做视频内容网页预览，就可以使用小阈值输出视频摘要，主要表现为精确率上升，我们称之为方法一。使用二维卷积神经网络进行视频人体行为识别的任务中，我们就可以优先考虑欧氏距离比对的阈值设置为最大，这样就直接输出每一段视频片段里的关键帧作为视频摘要，主要表现为召回率上升我们称之为方法二。

本发明具体实施步骤如下，如图2所示：

步骤一是预处理阶段，首先将原始视频解码成帧进行预采样得到需要的帧，在此过程中，丢弃解码失败以及结尾处可能存在空帧。

步骤二到步骤四为特征提取和视频镜头分割部分。步骤二，通过差值哈希算法，得到每一帧图像的像素值“指纹”编码，计算当前帧与前一帧图像的汉明距离，设定一个较大的阈值，将基本一致的帧聚类，这一步由于阈值大，仅考虑到像素值差异得到为初始聚类结果，但是得到聚类段比对预采样得到帧数要明显减少，减少对大量基本一致图像帧的计算。步骤三，对上一步骤中生成的初始聚类结果，取其当前段的第一帧为当前帧，前一段的最后一帧为前一帧，提取两帧图像的HSV颜色特征，取H通道及S通道生成颜色直方图，使用其生成的所有直方图通道进行处理生成一个向量后，对两个向量求范数，得到欧氏距离，按照上一步思路设置一个居中的阈值对前后两段相似度比对后进行聚类，再一次大大减少聚类段的数量。步骤四，为了解决因为视频内容渐变导致颜色特征突变，然而实际上内容并没有突变的问题。使用oFAST(FAST Keypoint Orientation)特征提取与rBRIEF特征描述的ORB特征点匹配进行最后的聚类。对上一步骤中生成的已经解决像素值特征和颜色特征并且数量已经大大减少的聚类结果取其当前段的第一帧为当前帧，前一段的最后一帧为前一帧。通过速度最快的快速ORB算法提取特征点并使用快速最近邻搜索算法进行匹配，设置一个小的阈值，得到最后的聚类结果并进行输出。

步骤五和步骤六为生成视频摘要部分。步骤五，由于在步骤三中归一化的时候需要计算所含直方图的总数，以及步骤四中需要比较特征点数量，我们可以在进行这两步的时候分别统计第二次聚类片段中所含颜色信息最多的局部极值帧以及第三次聚类片段中特征点最多的局部极值帧，同时参考两项指标，将这些帧进行提取，作为每一段分割好的片段中的关键帧输出。步骤六，视频摘要的提出。主要针对不同任务需求，再次使用欧氏距离对关键帧进行聚类，并在同类中选出局部最具代表性的帧作为静态视频摘要进行输出。阈值较高时，召回率上升，阈值较低时，精确率上升。

其次在HSV颜色特征提取步骤，本发明也进行了改进。舍弃了HSV颜色直方图中的V通道。正常的视频解码出来的帧图像一般是采用RGB模型进行显示。传统方法中很多通过RGB颜色直方图来判断图像的颜色特征相似度。虽然判断的方法有很多，例如有卡方比较(Chi-Square)、十字交叉性(Intersection)、巴氏距离(Bhattacharyya distance)等，在一定程度上能增加此类方法的精度问题。但是由于RGB颜色空间中的三种颜色并不是单独表现，而是共同表现，从理论层面就决定该种方法有一种缺陷。针对此缺陷，本文采用了改进型HSV颜色直方图方法对帧图像的颜色特征进行处理。

在进行处理之前，首先将解码出来的RGB三通道模型帧图像转化为HSV模型：

其中：

颜色直方图是描述图像颜色信息的基本手段，它反映的是不同色彩在整幅图像中所占的比例，即各个颜色出现的频率，其公式为：

k＝0,1,…,L-1，式k代表图像的特征取值，L是特征可取值个数，n(k)是图像中具有特征值为k的像素的个数，N是图像像素的总数。累加直方图是对颜色直方图的加工，即对原直方图进行累计求和，其公式如下：

如果直接使用直方图对所需比较的帧图像进行相似度分析，由于初步的分割产生的分段视频依然较多，加之直方图计算量大，耗费时间多。同时由于视频往往是由手持设备拍摄，各种轻微的抖动和移动导致的相机角度变化都会造成颜色明度的变化，然而实际上视频内容并没有太大变化，容易造成误判，将相同内容错误的分割开来。为了节省计算时间并减少误差，本发明将只对H、S通道做16级量化。然后将H、S分量合为一维特征向量：

本发明使用欧式距离来判别帧图像之间的相似度，欧式距离越小则越相似。假设一维特征向量归一化后的结果为：

在关键帧的选取上面，本发明根据模型特点进行了改进。由于在步骤三中归一化的时候需要计算所含直方图的总数，以及步骤四中需要比较特征点数量，如图3所示，我们可以在进行这两步的时候分别统计第二次聚类片段中所含颜色信息最多的局部极值帧以及第三次聚类片段中特征点最多的局部极值帧，同时参考两项指标，将这些帧进行提取，作为关键帧输出。其中，实心方形代表颜色信息极值帧所在索引位置，实心三角形代表特征点数目极值点所在索引位置。

如图4所示，我们可以综合考量，选中实心方形所示帧，选中其作为关键帧输出。事实上，由于步骤四过程中，还会将步骤三生成的片段进行再一次聚类，我们可以根据设定合适的加权办法对包含的多个极值帧的片段进行选择，选择出所对应的关键帧。也可以对加权结果设定阈值，自适应输出多张关键帧图像。

在最终视频摘要的输出上，本发明进行了改进，提出了两种方法以满足不同的需求。

正常而言，选择的关键帧图像就能代表最后的静态视频摘要，但是这样选出来的关键帧是基于时序信息的。也就是说，选出来的是每一段分割好的时序片段中的视频摘要，如果原始视频本身时序就有重复，那么选出的关键帧就会有重复，视频摘要就会有重复，这是由于局部特征本身的局限性造成的，如图5所示，我们再次使用欧氏距离对关键帧提取全局特征进行聚类，并在同类中选出局部最具代表性的帧作为静态视频摘要进行输出。针对不同的任务，在这里，我们有不同的方法加以处理。

对每段选出来的关键帧使用之前步骤的HSV颜色特征进行欧氏距离对比，将相似关键帧归为一类，再在每一类中选择出代表帧作为静态视频视频摘要。在代表帧的选择上遵循这样的原则：

其中n是指每一类关键帧数目，特别指出，当n＝2时，将时序靠前的帧作为摘要输出，当n≥3时，输出每一类中离平均值最近的关键帧作为摘要。在这里要说明的是，这里的相似度阈值选择或者说是否选择需要这一步骤是根据实际需要进行调整的，流程选择如图6所示。例如，如果是做视频内容网页预览，就可以使用小阈值输出视频摘要，主要表现为精确率上升，我们称之为方法一。使用二维卷积神经网络进行视频人体行为识别的任务中，我们就可以优先考虑欧氏距离比对的阈值设置为最大，这样就直接输出每一段视频片段里的关键帧作为视频摘要，主要表现为召回率上升我们称之为方法二。

方法一和方法二这两种不同选择的方法具有各自的优点和适用范围，以实验说明如下：

以VSUMM数据集V14视频为例展示本发明的实验结果。图7、8、9、10、11依次是数据集内的用户摘要User#1、User#2、User#3、User#4、User#5。图12、13分别是方法一和方法二产生的静态视频摘要。

以该视频为例，我们可以看出，使用方法一时，跟数据集自带的用户摘要进行比较的时候，精确率为0.8889，召回率为0.6311。方法二精确率为0.7750，召回率为0.9182。可以看出，这样的一个差异造成的原因，是由于数据集里的用户摘要本身也存在极大的差异，假如不对选出的关键帧进行处理，那么很大可能，方法二选出来的摘要将包含绝大部分的用户摘要，如果进行处理了，方法一选出的摘要去除了所有重复的可能，方法一选出的摘要将被大部分的用户摘要所包含，所以精确率高。所以在这里需要说明的是，本发明最后一步对选出的片段关键帧的处理，需要根据实际需要，决定阈值以及是否使用。

综上所述，本发明提出的一种倒金字塔形式基于多特征相似度的视频摘要提取方法，该方法根据时间消耗从小到大依次使用差异值哈希算法，改进的HSV颜色特征提取算法，ORB(Oriented FAST and Rotated BRIEF)算法进行分层聚类，逐层减少需要处理的帧图像。最后对每个得到的分割的视频片段所提出候选视频摘要提取全局特征，生成最后的视频摘要。相较于现有方法，不需要考虑不同特征权重问题，时间消耗大幅减少。

另外，如图14所示，本发明的第二实施例提供了一种视频摘要提取系统，包括：

视频解码单元110，用于将原始视频解码得到帧图像；

视频分割单元120，用于根据时间消耗从小到大依次使用不同的帧图像特征提取算法进行视频分割，得到分割的时序片段；

关键帧选取单元130，用于对每个时序片段提出的候选视频摘要进行全局特征提取，选择关键帧输出；

生成视频摘要单元140，用于对关键帧进行聚类，生成最终视频摘要。

本实施例中的视频摘要提取系统与第一实施例中的视频摘要提取方法基于相同的发明构思，因此，本实施例中的视频摘要提取系统具有相同的有益效果：视频解码单元110将原始视频解码得到帧图像；视频分割单元120根据时间消耗从小到大依次使用不同的帧图像特征提取算法进行视频分割，得到分割的时序片段；关键帧选取单元130对每个时序片段提出的候选视频摘要进行全局特征提取，选择关键帧输出；生成视频摘要单元140对关键帧进行聚类，生成最终视频摘要。本系统采用倒金字塔聚类处理模型，根据时间消耗从小到大依次使用不同的特征提取算法进行分层聚类，逐层减少需要处理的帧图像，把时间消耗大的放在后面，总体上减少了时间消耗，大大减少计算时间，且能够很好的保留的时序信息。本系统具有如下优势：(1)计算时间大大缩短；(2)克服了局部特征提取过程中在多个场景区分时表现差于提取全局特征的不足，最后一步提出候选关键帧后，提取了候选关键帧的全局特征生成最终视频摘要；(3)能够根据视频内容生成自适应数量的视频摘要数目。

如图15所示，本发明的第三实施例还提供了一种视频摘要提取装置，包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述第一实施例中任意一种视频摘要提取方法。

该装置200可以是任意类型的智能终端，例如手机、平板电脑、个人计算机等。

处理器和存储器可以通过总线或者其他方式连接，图15中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本发明实施例中的人脸识别模型构建方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行装置200的各种功能应用以及数据处理，即实现上述任一方法实施例的视频摘要提取方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置200的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该装置200。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器中，当被所述一个或者多个处理器执行时，执行上述任意方法实施例中的视频摘要提取方法，例如，执行以上描述的第一实施例中的方法步骤S100至S400。

本发明的第四实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，被图15中的一个处理器执行，可使得上述一个或多个处理器执行上述方法实施例中的一种视频摘要提取方法，例如第一实施例中的方法步骤S100至S400。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种视频摘要提取方法，其特征在于，包括：

将原始视频解码得到帧图像；

对每个时序片段提出的候选视频摘要进行特征提取，选择关键帧输出；

对关键帧进行聚类，生成最终视频摘要；

其中，所述根据时间消耗从小到大依次使用不同的帧图像特征提取算法进行视频分割具体包括：根据时间消耗从小到大依次使用Hash算法、HSV颜色特征提取算法以及ORB算法。

2.根据权利要求1所述的一种视频摘要提取方法，其特征在于，所述将原始视频解码得到帧图像，包括：

3.根据权利要求1所述的一种视频摘要提取方法，其特征在于，所述帧图像特征提取算法包括用于帧图像特征初步聚类的Hash算法、用于帧图像特征二次聚类的HSV算法和用于帧图像特征三次聚类的ORB算法，所述HSV算法中，提取帧图像的HSV颜色特征，取H通道及S通道生成颜色直方图，舍弃HSV颜色直方图中的V通道。

4.根据权利要求3所述的一种视频摘要提取方法，其特征在于，所述根据时间消耗从小到大依次使用不同的帧图像特征提取算法进行视频分割，得到分割的时序片段，包括：

5.根据权利要求4所述的一种视频摘要提取方法，其特征在于，所述对每个时序片段提出的候选视频摘要进行特征提取，选择关键帧输出，包括：

6.根据权利要求1所述的一种视频摘要提取方法，其特征在于，所述对关键帧进行聚类，生成最终视频摘要，包括：

7.一种视频摘要提取系统，其特征在于，包括：

视频解码单元，用于将原始视频解码得到帧图像；

关键帧选取单元，用于对每个时序片段提出的候选视频摘要进行特征提取，选择关键帧输出；

生成视频摘要单元，用于对关键帧进行聚类，生成最终视频摘要；其中，所述视频分割单元用于根据时间消耗从小到大依次使用不同的帧图像特征提取算法进行视频分割，得到分割的时序片段，具体包括：根据时间消耗从小到大依次使用Hash算法、HSV颜色特征提取算法以及ORB算法。

8.一种视频摘要提取装置，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1-6任一项所述的方法。