CN111460961A

CN111460961A - 一种基于cdvs的相似图聚类的静态视频摘要方法

Info

Publication number: CN111460961A
Application number: CN202010227616.8A
Authority: CN
Inventors: 滕国伟; 朱林林
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-07-28
Anticipated expiration: 2040-03-27
Also published as: CN111460961B

Abstract

本发明公开了一种基于CDVS的相似图聚类的静态视频摘要方法，旨在生成一个紧凑而且能够代表视频的静态图像集合。包括如下步骤：1)提取视频帧特征，为了降低运算复杂度，首先对输入视频帧进行预采样得到一组候选帧；然后对每个候选帧提取CDVS描述子，获得视频帧的特征。2)相似帧聚类，选择候选帧中的第一帧作为参考帧，利用汉明距离计算其余候选帧与参考帧之间的相似性，将高度相关的帧自动聚为一类，无需预设聚类的数量。3)关键帧的生成，通过视频帧色彩熵函数从每个聚类中选择选出一帧图像视觉质量最好的作为关键帧。4)冗余帧消除，对得到的关键帧利用汉明距离进行相似性计算，对相似的冗余帧消除，选择出的关键帧具有较好的图像视觉质量。

Description

一种基于CDVS的相似图聚类的静态视频摘要方法

技术领域

本发明涉及一种基于紧凑型视觉描述子(CDVS)的相似图聚类的静态视频摘要方法，属于视频摘要领域。

背景技术

随着科技的进步和多媒体技术的发展，视频信息的直观性、准确性和高效性使得数字视频的应用越来越广泛。但是不断增长的视频数据给其存储与检索也带来了巨大挑战。用户必须浏览大量的视频数据，每个视频数据跨越数小时才能获得相关视频。挖掘这些巨大的视频存储库以选择感兴趣的特定视频是昂贵、耗时且繁琐的任务。近年来，为提高视频检索性能和高效存储视频数据进行了大量的研究工作并取得了很好的效果。视频摘要是一种有效的解决方案，使得用户处理互联网上视频数量大幅增加。

现有的大多数方法在检测到视频镜头之后提取关键帧，通常基于镜头的方法得到的关键帧仍然可能是冗余的，因为类似的镜头可能在视频中出现多次。此外，预先设置簇的数量可能影响最佳视频摘要结果的生成。因此如果采用一种从整个视频中提取关键帧而不是分别从每个镜头中提取关键帧，那么就可以在准确性和冗余方面改善提取的关键帧质量。

发明内容

针对现有技术存在的缺陷，本发明的目的在于提供一种基于CDVS的相似图聚类的静态视频摘要方法，对每个候选帧提取紧凑型视觉描述子(CDVS)，之后计算候选帧中每两帧之间的汉明距离，使用相似性图聚类来执行关键帧的选择，可以在准确性和冗余方面改善提取的关键帧质量。

为达到以上目的，本发明构思如下：

对输入视频帧进行预采样得到一组候选帧，然后对每个候选帧提取CDVS描述子。在候选帧中选一帧作为参考帧，利用汉明距离计算其余候选帧与参考帧之间的相似性，相似的视频帧聚为一类，每一类通过视频帧色彩熵函数选出一帧图像视觉最好的作为关键帧。最后对得到的关键帧进一步利用汉明距离进行相似性计算，如果关键帧之间存在相似的帧，那么这些相似的帧通过视频色彩熵函数选出一帧图像视觉最好的，作为最终的关键帧。

根据上述构思，本发明采用如下技术方案：

一种基于CDVS的相似图聚类的静态视频摘要方法，具体操作步骤如下：

1)预采样：对输入视频帧进行预采样，得到一组候选帧F＝[F₁,F₂,F₃,…,F_M]，其中M为候选帧的总数；

2)提取视频帧特征：选择若干候选帧F＝[F₁,F₂,F₃,…,F_M]，为每个候选帧计算CDVS描述子，获得视频帧特征；提取CDVS描述子包括三个步骤：兴趣点检测，局部特征选择和局部特征描述符聚合；

3)相似帧聚类：选择候选帧中的第一帧作为参考帧，利用汉明距离计算其余候选帧与参考帧之间的相似性，相似的视频帧聚为一类，这个过程能够检测高度相关的帧并自动聚为一类，并且避免了预设聚类的数量，避免影响视频摘要的最优结果生成；

4)关键帧的生成：通过视频帧色彩熵函数从每个簇中选择出一帧图像视觉质量最好的作为代表帧，不需要任何的迭代；

5)冗余帧的消除：由于步骤4)得到的代表帧之间可能还存在冗余，所以对得到的关键帧进一步利用汉明距离进行相似性计算，将每个代表与其余代表帧进行比较，从而消除冗余的关键帧，得到最终的视频摘要结果。

所述步骤2)中的CDVS描述子特征提取，具体步骤如下：

2-1)兴趣点检测：CDVS提出了一种新颖的逐块比例空间表示，并应用了高斯LoG滤波的拉普拉斯算子，以实现基于块的频域LoG，BFLoG检测器；为了识别兴趣点，CDVS提出了一种低次多项式ALP方法来通过多项式近似LoG滤波结果，用于在尺度空间中找到极值并完善检测点的空间位置；

2-2)特征选择：由兴趣点检测生成的局部特征的数量可能大于在给定CDVS图像描述符长度下存储的局部特征的数量，因此，CDVS标准根据局部特征的属性评估特征匹配的可能性，并选择数量有限的兴趣点，以识别那些最大化预期质量度量以进行后续匹配的特征点；特征属性包括尺度空间中的尺度σ，方向θ，尺度标准化的LoG响应值D，Hessian矩阵比p，尺度空间的二阶导数p_σσ以及兴趣点到图像中心的距离d；

2-3)局部特征描述子聚合：CDVS标准中采用SCFV聚合描述子生成CDVS描述子，SCFV基本思想是对图像的局部特征降维压缩后生成的Fisher向量，Fisher Vector中包含了原特征向量每一维的值，并且包含了生成式建模过程的结构性信息，对图片的表达更加细致。

所述步骤3)中的相似帧聚类，具体步骤如下：

对所有候选帧进行特征提取之后，将所有的候选帧分割成簇；利用基于CDVS全局描述子匹配的相似帧聚类方法，这种方法不需要指定集群的数目；CDVS全局描述子匹配过程如下：给定两个图像Q和R，使用CDVS全局描述子计算基于汉明距离的相似度得分，如下所示：

其中：

表示GMM中第i个高斯函数的二值化fisher子矢量

如果选择第i个高斯函数

反之

表示来自Q和R的第i个高斯函数的Fisher子矢量的汉明距离，范围从0到D；

表示从INRIA Holidays，Oxford Buildings和Pasadena Buildings的一组匹配/不匹配图像对中学习的权重，

表示与二值化Fisher子矢量

相关联的权重；单个阈值τ用于声明两图像R与Q是否匹配，如果s_Q，R大于阈值τ＝0.5，说明两帧之间是匹配的，看作是同一类；

将候选帧的第一帧与其余所有候选帧进行汉明距离相似性计算，与第一帧相似度大于阈值τ的就被归为第一类；以此类推，将所有候选帧归为N个类，这N个类内的视频帧是相似的，类与类之间的视频帧是不相似的。

所述4)中关键帧的生成，关于视频帧色彩熵函数H(x)：该值越高图像的对比度越高，则认为该帧具有较好的图像视觉质量，其定义如下：

其中：N表视色彩的种数，RGB色彩空间精度分别为8*8*8，则N为512；p_i表示第i种色彩C_i在图像中出现概率，该值直接由图像色彩直方图得到。

与现有技术相比，本发明具有如下的优点：

本发明方法是从整个视频中提取关键帧而不是分别从每个镜头中提取关键帧，减少了冗余；与传统的聚类相比，本发明不用预先设置簇的数量，避免了设置参数对视频摘要结果的影响，提高了视频摘要结果的准确性；采用紧凑型视觉描述子来提取视频帧特征，与SIFT相比，其计算复杂度低，匹配精度高，速度快，并且需要非常低的内存；利用视频帧色彩熵函数，选择出的关键帧具有较好的图像视觉质量。

附图说明

图1为本发明基于CDVS的相似图聚类的静态视频摘要方法的流程图。

图2为本发明相似帧聚类方法的流程图。

具体实施方式

本发明优选实施例结合附图详述如下：

如图1所示，一种基于CDVS的相似图聚类的静态视频摘要方法，具体操作步骤如下：

1)预采样，视频是一种具有大量冗余的媒体，通常几十帧代表相同的视觉信息，为了降低运算复杂度，首先对输入视频帧进行预采样，得到一组候选帧F＝[F₁，F₂，F₃，...，F_M]，其中M为候选帧的总数。

2)提取视频帧特征，紧凑型视觉描述子可以有效地用于特征提取，并且计算复杂度比SIFT小得多。选择若干候选帧F＝[F₁，F₂，F₃，...，F_M]，为每个候选帧计算CDVS描述子，获得视频帧特征。提取CDVS描述子包括三个步骤：兴趣点检测，局部特征选择和局部特征描述符聚合，具体步骤如下：

2-3)局部特征描述子聚合：CDVS标准中采用SCFV聚合描述子生成CDVS描述子，SCFV基本思想是对图像的局部特征降维压缩后生成的Fisher向量，FisherVector中包含了原特征向量每一维的值，并且包含了生成式建模过程的结构性信息，对图片的表达更加细致。

3)相似帧聚类，选择候选帧中的第一帧作为参考帧，利用汉明距离计算其余候选帧与参考帧之间的相似性，相似的视频帧聚为一类，这个过程可以检测高度相关的帧并自动聚为一类，并且避免了预设聚类的数量，因为提前设置簇数可能会影响视频摘要的最优结果生成。

本实施例中，如图2所示，相似帧聚类方法主要包括以下几个步骤：首先在未分类的候选帧中选取第一帧作为查询图像Q，其余帧作为数据库图像(DB)R，根据步骤3)计算出所有数据库图像R相对于查询图像Q的距离d_i(i的值从1到n，n为数据库图像中帧的个数，相似度得分从高到低依次排列)，设置一个最小得分阈值η，认为d_i＜η的查询图像Q与数据库中的图像R_i内容相似，记d_i＜η的视频帧的个数为N1，为了使N1个视频帧代表足够多的视频信息，设定阈值T1，如果N1小于T1，认为N1个视频帧过短且没有代表足够多的视频内容，将重新选取下一帧作为查询图像重新进行选择。此时将N1个视频帧作为Cluster 1，然后记未分类视频帧个数为Nu，在剩余未分类的视频帧中重复上述过程。最终可得到视频帧的n个分类Cluster l到Cluster n。

所述汉明距离计算公式如下：

所有候选帧都由CDVS全局描述子表示，给定两个图像Q和R，使用CDVS全局描述子计算基于汉明距离的相似度得分：

其中：

表示GMM中第i个高斯函数的二值化fisher子矢量

如果选择第i个高斯函数

反之

表示来自Q和R的第i个高斯函数的Fisher子矢量的汉明距离，范围从0到D(对于操作点512B，D＝24，对于其他操作点，D＝32)。

表示与二值化Fisher子矢量

相关联的权重。单个阈值τ用于声明两图像R与Q是否匹配，如果s_Q，R大于阈值τ＝0.5，说明两帧之间是匹配的，可以看作是同一类。

4)关键帧的生成，通过视频帧色彩熵函数从每个簇中选择出一帧图像视觉质量最好的作为代表帧，不需要任何的迭代。

关于视频帧色彩熵函数H(x)：该值越高图像的对比度越高，则认为该帧具有较好的图像视觉质量，其定义如下：

其中：N表视色彩的种数，RGB色彩空间精度分别为8*8*8，则N为512。p_i表示第i种色彩C_i在图像中出现概率，该值可以直接由图像色彩直方图得到。

5)冗余帧的消除，由于步骤4)得到的代表帧之间可能还存在冗余，所以对得到的关键帧进一步利用汉明距离进行相似性计算，将每个代表与其余代表帧进行比较，从而消除相似的关键帧，得到最终的视频摘要结果。