CN106851437A

CN106851437A - 一种提取视频摘要的方法

Info

Publication number: CN106851437A
Application number: CN201710035223.5A
Authority: CN
Inventors: 张涛
Original assignee: NANTONG COSHIP ELECTRONICS CO Ltd
Current assignee: NANTONG COSHIP ELECTRONICS CO Ltd
Priority date: 2017-01-17
Filing date: 2017-01-17
Publication date: 2017-06-13

Abstract

本发明提供了一种提取视频摘要的方法，包括：计算待提取视频段中所有帧图像的HSV直方图；计算出相邻两帧图像的相似性；通过自适应局部双阈值法检测镜头的转换，在存在镜头转换的地方对视频进行切割，最后形成一个镜头集合；采用基于自适应阈值的聚类方法将相似的镜头规整到一个聚类集合中；取一个镜头聚类，进行的关键帧提取；重复S6操作，直到所有的镜头聚类都已完成关键帧提取为止；对获取的关键帧按照时间顺序进行组合，形成最后的视频摘要。本方法使用更接近人类感知的L值作为特征，通过相邻帧差的欧式距离获取优选极大值点，极大程度上确定了最优的关键帧数及较合理的初始聚类中心，加快了收敛速度。

Description

一种提取视频摘要的方法

技术领域

本发明涉及视频图像处理技术领域，具体涉及一种提取视频摘要的方法。

背景技术

视频摘要对视频的意义正如文章摘要对文章的意义。视频摘要是用来对整个视频内容做总结说明，通过视频摘要让观看者理解整个视频的大致内容，以提高视频的访问效率。

提取视频摘要最重要的一步是提取关键帧，对于多镜头的视频，需要在镜头分割的基础上，采用聚类方法将同一镜头所包含的n帧图像分别归类到不同聚类中，从每个类中选取某一帧作为这个类的代表帧，从而形成关键帧集合。现有技术中提取关键帧通常都是用K-means算法，该算法首先随机选择K个对象作为初始的K个聚类的中心，然后对剩余的每个对象，根据其与各个中心的距离，将它归给最近的聚类，然后重新计算每个聚类的中心，不断重复直至准则函数收敛。但是在实际应用中这个K值的选定是很难估计的，绝大多数情况下事先并不知道给定的数据集应该分成多少个聚类才最合适；而且随机选择初始聚类中心，对聚类结果有较大的影响，一旦初始值选择不好，可能无法得到有效的聚类结果；该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销非常大。

发明内容

本发明要解决的技术问题是：现有视频摘要生成过程中提取关键帧时存在盲目性、聚类结果不准确和计算复杂性高的问题。

为解决上述问题，本发明提出了一种提取视频摘要的方法，包括以下步骤：

S1、基于直方图法对视频进行镜头分割，具体包括：

S1.1、计算视频中每帧图像的H、S、V分量值，对上述三个分量值进行非等间隔量化后合成每帧图像的特征矢量L_a＝(L_a(1),L_a(2),…,L_a(G)),其中L_a为第a帧图像的特征矢量，G为第a帧图像的总像素数，a∈[1,P-1]，P为视频中图像的总帧数；

S1.2、对每帧图像的特征矢量做归一化处理，得到归一化特征矢量，计算两两相邻图像的相似度；

S1.3、采用双阈值法检测镜头转换，根据检测结果将视频分割成多个镜头；

S1.4、使用聚类算法将上述镜头划分到多个镜头聚类中；

S2、取一个镜头聚类，对该镜头聚类进行关键帧提取，具体包括：

S2.1、计算本镜头聚类中两两相邻图像的帧差diff_n(i)＝L_n+1(i)-L_n(i)，i∈[1,G]，n∈[1,N-1]，其中diff_n(i)为第n+1帧与第n帧在第i像素的帧差，N为本镜头聚类中图像的总帧数；

S2.2、计算相邻帧差之间的欧式距离其中m∈[1,N-2]，diff_m(i)为第m+1帧与第m帧在第i像素的帧差，diff_m+1(i)为第m+2帧与第m+1帧在第i像素的帧差；

S2.3、以m为横坐标，de(m)为纵坐标绘制二维坐标曲线，找出所有极大值点；

S2.4、求所有极大值点纵坐标的平均值，选取纵坐标值大于平均值的极大值点为优选极值点，优选极值点的个数K为聚类个数，找出各个优选极值点的横坐标对应的图像，将对应图像的特征矢量作为各个聚类的聚类中心；

S2.5、计算每帧图像的特征矢量与聚类中心的欧式距离，并把每帧图像归到最近的聚类中；

S2.6、计算各聚类中所有图像的特征矢量的均值，作为各个聚类的新的聚类中心；

S2.7、重复步骤S2.5和S2.6，直到目标函数达到最优或者达到最大迭代次数为止，其中目标函数为最小化该聚类中所有图像的特征矢量到其聚类中心的距离的平方和；

S2.8、输出上述得到的K个聚类中心，提取距离上述K个聚类中心最近的帧图像为本镜头聚类的关键帧；

S3、重复步骤S2，直到所有的镜头聚类完成关键帧提取为止；

S4、对获取的所有关键帧按照时间顺序进行组合，形成视频摘要。

作为本发明的进一步改进，步骤S1.3中使用自适应方法设置双阈值，设置双阈值的具体步骤为：计算当前检测图像与其后连续的w帧图像的两两相邻图像的相似度，得到共w个相似度，再计算w个相似度的平均值和标准值，最后求得两个阈值：

TH_b＝Q_H(G_b-cR_b)，TL_b＝Q_LG_b

其中TH_b为检测第b帧图像与第b+1帧图像之间是否具有镜头转换的高阈值，TL_b为检测第b帧图像与第b+1帧图像之间是否具有镜头转换的高阈值，w为预设值，为相似度的平均值，为相似度的标准值，D_j为求取的w个相似度中的第j个相似度，标准值系数c的取值范围是[1,3]，高阈值系数Q_H的取值范围是[0.8,1.0],低阈值系数Q_L的取值范围是[0.3,0.5]。

作为本发明的进一步改进，步骤S1.4中使用自适应阈值的聚类方法将镜头分类，具体包括：计算视频中所有图像的两两相邻图像之间的相似度；对每个相似度对应求取一个方差和，该方差和为所有大于该相似度值的相似度的方差与所有小于该相似度值的相似度的方差的和；找到最小的方差和所对应的相似度，设置聚类阈值的大小为该相似度的大小；分别计算出每个镜头的所有图像的特征矢量的平均值，计算相邻镜头间的镜头相似度，将镜头相似度大于聚类阈值的连续镜头归为一个镜头聚类，从而得到多个镜头聚类。

本发明的有益效果：(1)本发明方法在提取关键帧时，采用了一种改进的K-means算法，与传统的K-means算法相比，本方法将图像特征由原来的灰度值改为更接近人类感知的特征矢量值，H、S、V这3个分量相对独立，在进行图形图像分析处理时计算量相对较小，算法效率更高；(2)通过相邻帧差的欧式距离获取优选极大值点，从而获得了最优的关键帧数，即聚类的个数，同时获得较合理的初始聚类中心，使得聚类结果更准确，加快了收敛速度，解决了传统K-means算法存在的盲目性；(3)本发明方法在进行关键帧提取之前对分割形成的多个镜头使用聚类方法，将相似镜头置放在一个聚类集合中，从而消除同一类镜头冗余，得到更具概括性的关键帧。

附图说明

图1为本发明提取视频摘要流程图。

图2为相似镜头聚类示意图。

图3为提取关键帧的流程图。

具体实施方式

本发明提出了一种提取视频摘要的方法，包括以下步骤：

S1、基于直方图法对视频进行镜头分割，具体包括：

S1.1、计算视频中每帧图像的H(色调)、S(饱和度)、V(明度)分量值，对上述三个分量值进行非等间隔量化后合成每帧图像的特征矢量。

以图像的每个像素为单位计算HVS分量：

为了减小计算量提高效率，本方法按照人的视觉感知和分辨能力，根据表1和表2对HSV进行非等间隔量化，把H分为8份，S和V分别分为3份。

表1 H的量化表

取值范围	[316,20)	[20,40)	[40,75)	[75,155)	[155,190)	[190,270)	[270,295)	[295,316)
									量化值	0	1	2	3	4	5	6	7

表2 S和V的量化表

取值范围	[0,0.2)	[0.2,0.7)	[0.7,1.0)
				量化值	0	1	2

将量化后的H、V、S合成特征值：L(i)＝9H(i)+3S(i)+V(i)，其中L(i)为该图像的第i像素的特征值，H(i)为第i像素的量化后的H值，S(i)为第i像素的量化后的S值，V(i)为第i像素的量化后的V值。

图像的特征矢量由图像中每个像素的特征值构成：L＝(L(1),L(2),…,L(G)),其中L(1)为图像的第1像素的特征值，依次类推，G为图像的总像素数。第a帧图像的特征矢量用L_a＝(L_a(1),L_a(2),…,L_a(G))表示，a∈[1,P-1]，P为视频中图像的总帧数。

S1.2、将每帧图像的特征矢量进行归一化处理，得到归一化特征矢量:

L_a'＝(L_a(1)',L_a(2)',…,L_a(G)')

其中L_a'为第a帧图像的归一化特征矢量，L_a(i)为第a帧图像的第i像素的特征值。

计算视频中两两相邻帧图像的相似度：

其中sim(a,a+1)为第a帧和第a+1帧之间的相似度，L_a(i)'和L_a+1(i)'分别为第a帧和第a+1帧图像的归一化特征矢量，G为每帧图像的总像素数。两帧图像相似度的取值范围为0到1，两帧图像的差异越小值越大，如果两帧图像的HSV分布相同，那么它们的相似度为1。

S1.3、视频镜头的转换有切变和渐变之分，通常渐变过程的帧差异值幅度要比切变小，而且渐变是一个持续过程，用单一的阈值无法准确判断渐变过程，故本发明使用双阈值法来检测镜头的转换。首先设置两个阈值T_L和T_H(T_L＜T_H)，计算视频中相邻帧的相似度，若相似度值大于T_H，则认为发生了镜头突变，若相似度小于T_H大于T_L，则认为开始发生镜头渐变，此时累加此后的相似度，直到累加值达到T_H，认为镜头渐变结束，若在累加过程中帧差异值回落到T_L以下，则认为无镜头转换，停止累加，重新判断。针对找到的这些位置，将视频分割成多个镜头。

考虑到在整个视频检测中使用相同的阈值，对内容变化较大的视频可能产生误检，对内容变化较小的视频可能产生漏检，本发明优选采用自适应方法设置双阈值，具体的双阈值的计算方法是：设计一个窗口宽度w帧，步长为1的滑动窗口，若检测第b帧与第b+1帧之间是否有镜头转换，则计算从第b帧到第b+w+1帧内的两两相邻图像的相似度，得到共w个相似度，计算w个相似度的平均值和标准方差：

其中D_j为求取的第b帧图像到第b+w+1帧图像的两两相邻图像的相似度中的第j个相似度，w为预设值。

计算两个阈值：

TH_b＝Q_H(G_b-cR_b)，TL_b＝Q_LG_b

其中TH_b为检测第b帧图像与第b+1帧图像之间是否具有镜头转换的高阈值，TL_b为检测第b帧图像与第b+1帧图像之间是否具有镜头转换的低阈值，c的取值范围是[1,3]，高阈值系数Q_H的取值范围是[0.8,1.0],低阈值系数Q_L的取值范围是[0.3,0.5]。

本发明具体实施例中滑动窗口的宽度w设为5，c设为2，Q_H设为0.9，Q_L设为0.4。

上述优选实施例根据待检测图像与后续w帧图像之间的两两相邻图像的相似度来设置双阈值，在整个视频检测过程中不断自适应调整双阈值，对内容变化较大的视频或这内容变化较小的视频均可准确检测，提高镜头检测的准确度。

S1.4、经过分割得到的多个镜头，其中会存在很多相似镜头，为了消除镜头冗余，得到更具概括性的关键帧，本发明采用基于自适应阈值的聚类方法将相似的镜头规整到一个镜头聚类中，其中求取自适应阈值的步骤如下：

S1.4.1、计算整个视频的所有相邻帧之间的相似度，组成相似度数组Sim，将所有相似度从小到大进行排序，得到一个新的数组S，其中数组Sim和S的元素个数为P-1；

S1.4.2、设置循环变量e，赋值为1；

S1.4.3、以数组S中第e个元素S_e为界，将数组S分割为S1和S2两个数组，分别计算两个数组的方差d₁(e)和d₂(e)；

S1.4.4、计算两个数组的方差和D(e)＝d₁(e)+d₂(e)，并存入到数组D中，循环变量e增加1；

S1.4.5、判断e是否大于P-1，若条件不成立，则跳到S1.4.3，否则在数组D中找到最小值D(k)，从而找到最小值D(k)对应的那个作为分界点的元素S_k；

S1.4.6、设置聚类阈值为S_k；

S1.4.7、分别计算出每个镜头中的所有图像的特征矢量的平均值，以此作为每个镜头的平均直方图，计算相邻镜头间的相似度，将相似度大于聚类阈值S_k的连续子镜头归为一个镜头聚类，依次判断将所有镜头分为多个镜头聚类。

这些相邻镜头聚类之间的差别比较明显，这样就达到减少了镜头之间冗余的目的。最终就得到了图2所示的镜头聚类。

S2、取一个镜头聚类，对该镜头聚类进行关键帧提取：

S2.1、计算该镜头聚类中两两相邻图像的帧差diff_n(i)＝L_n+1(i)-L_n(i)，i∈[1,G]，n∈[1,N-1]，其中diff_n(i)为第n+1帧与第n帧在第i像素的帧差，N为该镜头聚类中图像的帧数；

S2.3、以m为横坐标，de(m)为纵坐标绘制二维坐标曲线，绘制二维坐标曲线，找出所有极大值点(X_k,Y_k)和极大值点的个数Q，其中k的取值范围为[1，Q]；

S2.4、求所有极大值点的纵坐标Y_k的平均值纵坐标值Y_k大于的极大值点为优选极值点，优选极值点的个数K即为聚类个数，找出各个优选极值点的横坐标对应的图像，将对应图像的特征矢量作为各个聚类的聚类中心；

S2.5、计算每帧图像的特征矢量与各个聚类中心的欧式距离：

其中L_g(i)为第g个聚类中心的第i像素的特征值，L_f(i)为第f帧图像的第i像素的特征值；并把每帧图像归到最近的聚类；

S2.6、计算各聚类中所有图像的特征矢量的均值，即向量各维取平均，作为各个聚类的新的聚类中心；

S2.8、输出上述得到的K个聚类中心，提取距离上述K个聚类中心最近的帧图像为本镜头聚类的关键帧。

S3、重复步骤S2，直到所有的镜头聚类完成关键帧提取为止。

Claims

1.一种提取视频摘要的方法，其特征在于，包括以下步骤：

S1、基于直方图法对视频进行镜头分割，具体包括：

S1.1、计算视频中每帧图像的H、S、V分量值，对上述三个分量值进行非等间隔量化后合成每帧图像的特征矢量L_a＝(L_a(1),L_a(2),…,L_a(G)),其中L_a为第a帧图像的特征矢量，G为第a帧图像的总像素数,a∈[1,P-1]，P为视频中图像的总帧数；

S1.4、使用聚类算法将上述镜头划分到多个镜头聚类中；

S2.8、输出上述得到的K个聚类中心，提取距离上述K个聚类中心最近的图像为本镜头聚类的关键帧；

S3、重复步骤S2，直到所有的镜头聚类完成关键帧提取为止；

2.根据权利要求1所述的提取视频摘要的方法，其特征在于，步骤S1.3中使用自适应方法设置双阈值，设置双阈值的具体步骤为：计算当前检测图像与其后连续的w帧图像的两两相邻图像的相似度，得到共w个相似度，再计算w个相似度的平均值和标准值，最后求得两个阈值：

TH_b＝Q_H(G_b-cR_b)，TL_b＝Q_LG_b

其中TH_b为检测第b帧图像与第b+1帧图像之间是否具有镜头转换的高阈值，TL_b为检测第b帧图像与第b+1帧图像之间是否具有镜头转换的低阈值，w为预设值，为相似度的平均值，为相似度的标准值，D_j为求取的w个相似度中的第j个相似度,标准值系数c的取值范围是[1,3]，高阈值系数Q_H的取值范围是[0.8,1.0],低阈值系数Q_L的取值范围是[0.3,0.5]。

3.根据权利要求1或2所述的提取视频摘要的方法，其特征在于，步骤S1.4中使用自适应阈值的聚类方法将镜头分类，具体包括：计算视频中所有图像的两两相邻图像之间的相似度；对每个相似度对应求取一个方差和，该方差和为所有大于该相似度值的相似度的方差与所有小于该相似度值的相似度的方差的和；找到最小的方差和所对应的相似度，设置聚类阈值的大小为该相似度的大小；分别计算出每个镜头的所有图像的特征矢量的平均值，计算相邻镜头间的镜头相似度，将镜头相似度大于聚类阈值的连续镜头归为一个镜头聚类，从而得到多个镜头聚类。