CN110347870A

CN110347870A - 基于视觉显著性检测与层次聚类法的视频摘要化生成方法

Info

Publication number: CN110347870A
Application number: CN201910532373.6A
Authority: CN
Inventors: 金海燕; 肖聪; 肖照林; 蔡磊; 李秀秀; 杨秀红
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-10-18

Abstract

本发明公开的一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法，首先对视频进行拆帧成连续的图像序列；其次，对拆帧后的图像序列进行视觉显著性检测，得到检测后的结果图像；然后在显著性结果的基础上提取视频的关键帧，将提取的特征融合后计算相邻帧特征图像之间的欧式距离，进行初次筛选，最后在初步筛选的基础上计算对应的显著性检测图像的互信息值，根据互信息值进行分类形成新的集合，计算每一个集合中的相邻图像的互信息值，根据互信息值筛选得到视频的摘要。本发明公开的方法解决了现有方法花费过长时间浏览视频、占用较大设备存储空间的问题，同时提高了获取视频有用信息的效率。

Description

基于视觉显著性检测与层次聚类法的视频摘要化生成方法

技术领域

本发明属于计算机数字图像处理技术领域，具体涉及一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法。

背景技术

视频摘要化是对视频进行一个主要的概括，通过自动或半自动的方式获取视频中有用的帧中包含的信息，并保留有用的帧，同时去除非关键信息的帧，从而形成能够概括视频主要内容的视频图像序列。对视频进行摘要化生成，在时间上可以减少对视频进行浏览的时间，提高执行效率；在空间上也可以减少对存储设备存储空间的节约；同时对于视频中有用或需要寻找的信息，极大地方便了信息的查找和检索，因此如何能够将目前大量的视频进行摘要化处理生成高度概括的有用图像序列，是一个极具挑战的问题。

目前，国内外对于视频摘要化的研究方法主要包括：镜头检测法、曲线规划法和数据聚类法，其中，镜头检测法的计算复杂度较低，但这种方法不能动态的选择关键的图像帧，因此，该算法的局限性较大；曲线规划法虽然可以简化对视频的处理，但是它只能反映视频内容的变化，无法完整的表达语义信息；而单纯的通过数据聚类法进行视频摘要化处理时，对于视频帧之间距离计算准则的选取有一定的困难，存在提取的特征是否具有代表性的问题。因此，对于视频摘要化生成技术，不能仅仅单纯通过镜头检测或数据聚类的方法对视频的重要信息进行判断生成摘要。在计算机图像处理的领域中，视觉显著性在其中发挥了非常重要的作用，利用视觉显著性，可以容易的判断出图像中人眼被吸引的区域，从而提取出重要的部分，促进了计算机视觉应用的创新与发展。目前大多数显著性检测方法都是基于自底向上模型的算法，存在花费过长时间浏览视频、占用较大设备存储空间的问题。

发明内容

本发明的目的是提供一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法，解决了现有方法花费过长时间浏览视频、占用较大设备存储空间的问题，同时提高了获取视频有用信息的效率。

本发明所采用的技术方案是，一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法，具体操作过程包括如下步骤：

步骤1，对需要进行摘要化的视频进行拆帧，将一段视频根据帧速率拆分成若干个连续的图像序列；

步骤2，对拆帧后的图像序列进行视觉显著性检测，得到通过显著性检测后的结果图像；

步骤3，在步骤2的基础上提取视频的关键帧，计算相邻帧特征图像之间的欧式距离，根据欧式距离进行初步筛选；

步骤4，计算对经过初步筛选后的视频关键帧对应的显著性检测结果两两之间的互信息值，根据互信息值划分新的集合；

步骤5，在每一个新的集合中，计算所有图像与其他图像之间的互信息值最大的一帧图像作为最终的视频摘要图像。

本发明的其他特点还在于，

优选的，步骤1的具体过程如下：

根据视频的帧速率，通过Opencv的Capture函数读取视频，并通过capture.get函数分别获取视频流的宽度、高度以及帧速率，将每一帧视频图像拆分并保存形成若干连续的图像序列。

优选的，步骤2的具体过程如下：

步骤2.1，分别将步骤1得到的若干连续的图像序列通过视觉显著性模型和中心周围差原理，获取静态显著性图像；

步骤2.2，分别计算步骤1得到的若干连续的图像序列运动显著性图像，通过图像运动前后图像灰度保持不变基本原理，导出光流约束方程，通过光流法，得到运动显著性图像；

步骤2.3，将静态显著性图像和运动显著性图像进行融合，具体过程如下：

定义视频序列为F＝{F₁,F₂,F₃,…,F_N}，表示一段视频中的N个图像序列，静态显著图像序列为F'＝{F₁',F'₂,F'₃,…,F'_N}，对计算得到的静态显著性图像使用均值滤波器去除部分噪声后，将其与原图像序列F逐像素相乘进行合并，从而增强不同像素点之间的对比度并突出梯度，得到最终的静态显著性图像

定义运动显著性图像与静态显著性图像进行融合生成时空显著图如下式所示：

其中，MCT表示静态显著性图像与运动显著性图像的一致性，MCS表示运动显著性图像与静态显著性图像的一致性，M_k(X)表示加权融合后的图像。

优选的，步骤3包括如下操作过程：

步骤3.1，在步骤2的基础上提取视频的关键帧，分别提取原视频图像序列与步骤2得到的结果图像相乘后图像的颜色特征、原视频图像序列的纹理特征以及原视频图像序列的光流信息图；

步骤3.2，将每幅图像经步骤3.1得到的三个特征图像进行融合，形成融合后的特征向量矩阵；

步骤3.3，计算融合后的相邻帧特征图像之间的欧式距离；

步骤3.4，将步骤3.3得到的所有欧式距离值的平均值设定为阈值，根据阈值对每一个视频帧序列进行筛选，若相邻两帧之间的欧式距离大于阈值，则保留当前帧和下一帧，若相邻帧之间的欧式距离小于阈值，则保留当前帧，舍弃下一帧，依次比较，得到初步筛选的视频关键帧。

优选的，步骤3.1的具体过程如下：

步骤3.1.1，提取原视频图像与步骤2得到的结果图像相乘后图像的颜色特征；

提取原视频图像序列的R、G、B三通道颜色信息，分别与步骤2得到显著性检测结果图像中对应像素位置进行相乘，再将三通道进行合并，得到原图与显著性检测结果图相乘后的图像；

提取相乘后的图像的颜色特征，使用matlab中rgb2hsv函数将图像从RGB空间转化为HSV空间，再分别提取H、S、V三通道的信息，将H、S、V三通道按照16：4：4的等级进行量化；之后将所有的颜色分量按比例等级融合形成特征矢量，融合的公式如式(1)所示：

L＝H*Q_s*Q_v+S*Q_v+V (1)

其中，Q_s和Q_v是量化的等级；

按照步骤3.1.1将颜色空间进行量化，并将量化后的颜色根据公式(1)进行融合并映射，映射的像素值范围为[0，255]，最终得到原图与显著性检测结果图相乘图像的颜色特征；

步骤3.1.2，提取原视频图像序列中每一帧图像的纹理特征；

定义一个3*3大小的检测窗口即纹理特征提取算子，以窗口中心像素为阈值，与相邻的8个像素的灰度值比较，若周围的像素值大于中心像素值，则该位置被标记为1，否则标记为0，得到一个8位二进制数，并将八位二进制数转换为十进制，3*3邻域内的8个点经比较就得到该窗口中心像素点的局部二值模式的值；

根据公式(2)计算每个检测窗口的直方图即每个数字出现的频率，并对该直方图进行归一化处理，重复步骤3.1和3.2得到原视频图像序列纹理特征图像；

其中，p表示3*3窗口中除中心像素点外的第p个像素点，I(c)表示中心像素点的灰度值，I(p)表示领域内第p个像素点的灰度值；s为

步骤3.3.3，提取原视频图像序列的光流信息图；

采用Lucas-Kanade光流法计算前后两帧之间的光流，假设图像上一个像素点位(x,y)，在t时刻的亮度为E(x,y,t)，用u(x,y₀和v(x,y)表示该点光流在水平和垂直方向上的移动分量，则u＝dx/dt，v＝dy/dt，在经过一段时间间隔Δt后该点对应点亮度为E(x+Δx,y+Δy,t+Δt)，当Δt很小趋近于0时，认为该点亮度不变，则有E(x,y,t)＝E(x+Δx,y+Δy,t+Δt)；

当该点的亮度有变化时，将移动后点的亮度由Taylor公式展开如式(3)所示：

忽略其二阶无穷小，Δt趋近于0时有

式中w＝(u,v)，通过式(3)即Lucas-Kanade光流方程得到视频图像序列的光流信息图像。

优选的，步骤3.2的具体过程如下：

将每幅图像步骤3.1得到的三个特征图像进行融合，将每个特征图像对应的图像矩定义为矩阵A、B、C并且按列拼接，形成融合的特征向量矩阵[A B C]。

优选的，步骤3.3的具体过程如下：

对于两张图像，其欧式距离定义为图像中所有像素点之间的欧氏距离的累加和，得到相邻帧特征图像之间的欧式距离的值，如式(4)所示：

其中x表示融合后特征矩阵的行数，y表示融合后特征矩阵的列数，Fusion表示融合后的特征矩阵。

优选的，步骤4包括如下操作过程：

步骤4.1，计算对经过初步筛选后的视频关键帧对应的显著性检测结果两两之间的互信息值，作为两张图像是否相关的度量依据；

步骤4.2，将得到的所有互信息值的平均值设定阈值，根据阈值，使用层次聚类方法，对显著性检测结果的图像依据互信息值进行筛选，若当前帧与下一帧之间的互信息值小于阈值，则将当前帧划分至一个新的分类集合中，再与之后的帧进行比较；若当前帧与下一帧之间的互信息值大于等于阈值，则将下一帧划分到当前的分类集合中，最终将所有检测结果的图像通过阈值划分到不同的集合中；

步骤4.3，计算当前集合与下一个集合中图像的互信息值，将两个集合的互信息值与阈值进行比较，得到经过合并后的新的集合。

优选的，步骤4的具体过程如下：

步骤4.1，设两个随机变量(x,y)的联合分布为p(x,y)，边缘分布分别为p(x),p(y)，互信息I(X,Y)是联合分布p(x,y)与乘积分布p(x)p(y)的相对熵，根据式(5)计算互信息值：

式中，x和y表示当前帧和下一帧图像每一个像素点对应的灰度值，p(x)和p(y)分别为当前图像和下一帧图像的边缘概率值；

步骤4.3，当前集合与下一个集合的图像互信息值定义为两个集合中所有图像与除了本身之外的所有其他图像的互信息值和的平均值；

将两个集合的互信息值与阈值进行比较，若当前集合与下一个集合的互信息值大于等于阈值，则将两个集合进行合并，并用合并后的集合与下一个集合进行比较；若当前集合与下一个集合的互信息小于阈值，则将当前集合作为一个新的集合，得到经过合并后的新的集合。

优选的，步骤5的具体过程如下：

互信息值最大的一帧图像，能够代表当前集合中最能够表达其中包含主要信息的一帧图像，计算公式如式(6)所示：

其中，value表示当前图像x与下一个图像y的互信息值。

本发明的有益效果是，一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法，解决了现有方法花费过长时间浏览视频、占用较大设备存储空间的问题，同时提高了获取视频有用信息的效率，本发明首先对视频进行拆帧，将拆帧后的图像进行显著性检测，在显著性检测的图像基础上，提取视频的三个特征，根据三个特征融合后的图像的欧式距离进行初步筛选，在初步筛选的基础上再次计算初次筛选后得到关键帧的显著性检测结果的互信息值，根据互信息值划分新的集合，根据每一个集合中图像之间的互信息值得到最终的视频摘要图像。本发明公开的视频摘要化方法可以广泛地应用于视频监控领域，如公安、银行、轨道交通、通信电力行业等，对诸如这类的领域可以极大地提升相应的安全保障，节省人力物力成本。

附图说明

图1是本发明的一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法的流程图；

图2是本发明的一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法中关键帧图像判别与分析流程图；

图3是实施例中对原始视频拆分的帧图像；

图4是实施例中对拆分后原图像的显著性检测结果图像；

图5是实施例中拆分后的原图像与显著性图像相乘后的图像；

图6是实施例中拆分后的原图像与显著性图像相乘后的图像的颜色特征；

图7是实施例中拆分后的原图像的纹理特征；

图8是实施例中原视频图像序列的光流信息的光流信息；

图9是实施例中根据融合特征矩阵的欧氏距离筛选的候选关键帧；

图10是实施例中最终得到的视频摘要关键帧结果图像。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明的一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法，如图1所示，具体操作过程包括如下步骤：

步骤1的具体过程如下：

根据视频的帧速率，通过Opencv的Capture函数读取视频，并通过capture.get函数分别获取视频流的宽度、高度以及帧速率，将每一帧视频图像拆分并保存形成成若干连续的图像序列；

步骤2的具体过程如下：

(1)读取图像，并对R、G、B三个通道做1/2的高斯降采样，共采样八次从而获得九个尺度下的三通道图像；

(2)构建亮度高斯金字塔。在9个尺度下计算亮度I，其中I＝(R+G+B)/3；

(3)构建颜色和方向高斯金字塔。在9个尺度下计算R、G、B、Y四种颜色信息，σ为对应通道的颜色的数值，其中：

R(σ)＝r(σ)-(g(σ)+b(σ))/2

G(σ)＝g(σ)-(r(σ)+b(σ))/2

B(σ)＝b(σ)-(r(σ)+g(σ))/2

Y(σ)＝(r(σ)+g(σ))/2-|r(σ)-g(σ)|/2-b(σ)

最后利用Gabor滤波器构建Gabor方向金字塔ο(σ,θ)，θ为0、45、90、135四个方向信息；

(4)构建特征图：利用Center-Surround方法计算对应的特征图，计算方法为：

I(c,s)＝|I(c)-I(s)|

RG(c,s)＝|(R(c)-G(c))-(G(s)-R(s))|

BY(c,s)＝|(B(c)-Y(c))-(Y(s)-B(s))|

ο(c,s,θ)＝|ο(c,θ)-ο(s,θ)|

上式表示将两个图像的尺寸调整到一致后做矩阵减法操作，其中c表示中心金字塔，c∈{2,3,4}；s表示环绕金字塔，s＝c+σ，δ∈{3,4}；不同尺度间特征取差形成特征图，共有2-5、2-6、3-6、3-7、4-7、4-8六种尺度差共42幅特征图，包含了6个亮度特征图，12个颜色特征图以及24个方向特征图；

(5)特征图融合：先对特征进行归一化处理，然后分别尺度间求和，包括Im(亮度之和)，Cm(RG、BY之和)和Om(方向之和)，最终得到静态显著性图；

步骤2.2，分别计算步骤1得到的若干连续的图像序列运动显著性图像，在一段连续的运动视频中，人眼更多关注能够产生大的位移或运动变化的信息，对视频中相邻的两帧通过光流法得到显著物体的运动信息。一般情况下，光流由相机运动，场景中目标运动或两者的共同运动产生。假定图像上点m＝(x,y)^t在时刻t的灰度值为I＝(x,y,t)，经过时间间隔dt后，对应点的灰度为I(x+dx,y+dy,t+dt)，此时可以认为两点的灰度不变。通过运动前后图像灰度保持不变这个基本假设，导出光流约束方程，通过光流法，得到运动显著性图像；

其中，MCT表示静态显著性图像与运动显著性图像的一致性，MCS表示运动显著性图像与静态显著性图像的一致性，M_k(X)表示加权融合后的图像。通过静态显著图与运动显著图的融合，突出地显示目标对象的范围区域。

步骤3，在步骤2的基础上提取视频的关键帧，分别提取原视频图像序列与步骤2得到的结果图像相乘后图像的颜色特征、原视频图像序列的纹理特征以及原视频图像序列的光流信息图；

步骤3的具体过程如下，如图2所示：

步骤3.1，提取原视频图像与步骤2得到的结果图像相乘后图像的颜色特征；

步骤3.1.1，提取原视频图像序列的R、G、B三通道颜色信息，分别与步骤2得到显著性检测结果图像中对应像素位置进行相乘，再将三通道进行合并，得到原图与显著性检测结果图相乘后的图像；

步骤3.1.2，提取相乘后的图像的颜色特征，这里提取图像在HSV颜色空间中的颜色特征，使用matlab中rgb2hsv函数将图像从RGB空间转化为HSV空间，再分别提取H、S、V三通道的信息，将H、S、V三通道按照16：4：4的等级进行量化；之后将所有的颜色分量按比例等级融合形成特征矢量，融合的公式如式(1)所示：

L＝H*Q_s*Q_v+S*Q_v+V (1)

其中，Q_s和Q_v是量化的等级；

按照步骤3.1.2将颜色空间进行量化，并将量化后的颜色根据公式(1)进行融合并映射，映射的像素值范围为[0，255]，最终可以得到原图与显著性检测结果图相乘图像的颜色特征；

步骤3.2，提取原视频图像序列中每一帧图像的纹理特征；

步骤3.2.1，定义一个3*3大小的检测窗口即纹理特征提取算子，以窗口中心像素为阈值，与相邻的8个像素的灰度值比较，若周围的像素值大于中心像素值，则该位置被标记为1，否则标记为0。如此可以得到一个8位二进制数，并将八位二进制数转换为十进制，这样，3*3邻域内的8个点经比较就得到该窗口中心像素点的局部二值模式(LBP)的值；

步骤3.2.2，根据公式(2)计算每个检测窗口的直方图即每个数字出现的频率，并对该直方图进行归一化处理，重复步骤3.1和3.2得到原视频图像序列纹理特征图像；

一个LBP算子可以产生不同的二进制模式，对于半径为R的圆形区域内含有P个采样点的LBP算子将会产生P^2种模式。随着邻域集内采样点数的增加，二进制模式的种类会急剧增加。因此，通过等价LBP模式对原始的LBP模式进行降维，使得数据量减少的情况下能最好的代表图像的信息；

在实际图像中，绝大多数LBP模式最多只包含两次从1到0或从0到1的跳变。因此“等价模式”定义为当某个LBP所对应的循环二进制数从0到1或从1到0最多有两次跳变时，该LBP所对应的二进制就称为一个等价模式类。如00000000(0次跳变)，00000111(只含一次从0到1的跳变)，10001111(先由1跳到0，再由0跳到1，共两次跳变)都是等价模式类。除等价模式类以外的模式都归为另一类，称为混合模式类，例如10010111(共四次跳变)。通过等价LBP模式，模式数量由原来的2^P种减少为P(P-1)+2种，其中P表示邻域集内的采样点数。对于3×3邻域内8个采样点来说，二进制模式由原始的256种减少为58种，这使得特征向量的维数更少，并且可以减少高频噪声带来的影响。

步骤3.3，提取原视频图像序列的光流信息图；

采用Lucas-Kanade光流法计算前后两帧之间的光流，计算两帧在时间t到t+δt之间每个像素点位置的移动：假设图像上一个像素点位(x,y)，在t时刻的亮度为E(x,y,t)，用u(x,y₀和v(x,y)表示该点光流在水平和垂直方向上的移动分量，则u＝dx/dt，v＝dy/dt。在经过一段时间间隔Δt后该点对应点亮度为E(x+Δx,y+Δy,t+Δt)，当Δt很小趋近于0时，认为该点亮度不变，则有E(x,y,t)＝E(x+Δx,y+Δy,t+Δt)；

忽略其二阶无穷小，Δt趋近于0时有

其中令表示图像中像素点灰度沿x，y，t方向的梯度；

式中w＝(u,v)，通过式(3)即Lucas-Kanade光流方程；

由于Lucas-Kanade光流法是基于图像信号的泰勒级数，这种方法称为差分，这就是对于空间和时间坐标使用偏导数。图像约束方程可以写为I(x,y,z,t)＝I(x+δx,y+δy,z+δz,t+δt)；I(x,y,z,t)为在(x,y,z)位置的像素；

假设移动足够的小，对图像约束方程使用泰勒公式可以得到：

其中HOT指更高阶，在移动足够小的情况下可以忽略，因此可以得到：

通过Lucas-Kanade光流法获取视频图像序列的光流信息图像。

步骤4，将每幅图像的步骤3得到的三个特征图像进行融合，形成融合后的特征向量矩阵；

步骤4的具体过程如下：

将每幅图像步骤3得到的三个特征图像进行融合，将每个特征图像对应的图像矩定义为矩阵A、B、C并且按列拼接，形成融合的特征向量矩阵[A B C]；

步骤5，计算步骤4融合后的相邻帧特征图像之间的欧式距离；

步骤5的具体过程如下：

欧式距离中空间上两点x₁、x₂之间的距离被定义为：

对于两张图像，其欧式距离定义为图像中所有像素点之间的欧氏距离的累加和，如式(4)所示：

其中x表示融合后特征矩阵的行数，y表示融合后特征矩阵的列数，Fusion表示融合后的特征矩阵；

得到相邻帧特征图像之间的欧式距离的值。

步骤6，将步骤5得到的所有欧式距离值的平均值设定为阈值，根据阈值对每一个视频帧序列进行筛选，若相邻两帧之间的欧式距离大于阈值，则保留当前帧和下一帧，若相邻帧之间的欧式距离小于阈值，则保留当前帧，舍弃下一帧，依次比较，得到筛选的视频关键帧；

步骤7：对经过初步筛选后的原始图像序列对应的显著性检测图像两两之间计算其互信息值，作为两张图像是否相关的度量依据。

互信息(Mutual Information)是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。设两个随机变量(x,y)的联合分布为p(x,y)，边缘分布分别为p(x),p(y)，互信息I(X,Y)是联合分布p(x,y)与乘积分布p(x)p(y)的相对熵，如式(5)所示：

x和y表示当前帧和下一帧图像每一个像素点对应的灰度值，p(x)和p(y)分别为当前图像和下一帧图像的边缘概率值。最终得到显著性图像序列的互信息值的结果。

步骤8：设定阈值，根据阈值使用层次聚类方法，对显著性图像依据互信息值进行筛选。阈值定义为前一步中所有互信息值的平均值。将互信息值与阈值进行比较，若当前帧与下一帧之间的互信息值小于阈值，则将当前帧划分至一个新的分类集合中；再与之后的帧进行比较，若当前帧与下一帧之间的互信息值大于等于阈值，则将下一帧划分到当前的分类集合中，最终将所有显著性图像通过阈值划分到不同的集合中。

步骤9：计算当前集合与下一个集合中图像的互信息值。

当前集合与下一个集合的图像互信息值定义为两个集合中所有图像与除了本身之外的所有其他图像的互信息值和的平均值。

将两个集合的互信息值与阈值进行比较，若当前集合与下一个集合的互信息值大于等于阈值，则将两个集合进行合并，并用合并后的集合与下一个集合进行比较；若当前集合与下一个集合的互信息小于阈值，则将当前集合作为一个新的集合。最终得到经过合并后的新的集合。

步骤10：在每一个集合中，计算所有图像与其他图像之间的互信息值最大的一帧图像作为最终的视频摘要图像。互信息值最大的一帧图像，能够代表当前集合中最能够表达其中包含主要信息的一帧图像。计算公式如式(6)所示：

其中，value表示当前图像x与下一个图像y的互信息值。

实施例

为验证本发明的方法，对一条体育比赛视频进行摘要化处理，具体过程如下：

步骤1，将该体育比赛视频进行拆帧根据帧速率拆分成若干个连续的图像序列，如图3所示；

步骤2，对拆帧后的图像序列进行视觉显著性检测，得到通过显著性检测后的结果图像，如图4所示；

步骤3，在步骤2的基础上提取视频的关键帧，分别提取原视频图像序列与步骤2得到的结果图像相乘后图像如图5所示，原视频图像序列与步骤2得到的结果图像相乘后图像的颜色特征如图6所示、原视频图像序列的纹理特征如图7所示以及原视频图像序列的光流信息图如图8所示；

步骤6，将步骤5得到的所有欧式距离值的平均值设定为阈值，根据阈值对每一个视频帧序列进行筛选，若相邻两帧之间的欧式距离大于阈值，则保留当前帧和下一帧，若相邻帧之间的欧式距离小于等于阈值，则保留当前帧，舍弃下一帧，依次比较，得到初步筛选的视频关键帧，如图9所示；

步骤7，计算对经过初步筛选后的视频关键帧对应的显著性检测结果两两之间的互信息值，作为两张图像是否相关的度量依据；

步骤8，将步骤7得到的所有互信息值的平均值设定阈值，根据阈值使用层次聚类方法，对显著性检测结果的图像依据互信息值进行筛选，若当前帧与下一帧之间的互信息值小于阈值，则将当前帧划分至一个新的分类集合中，再与之后的帧进行比较；若当前帧与下一帧之间的互信息值大于等于阈值，则将下一帧划分到当前的分类集合中，最终将所有检测结果的图像通过阈值划分到不同的集合中；

步骤9，计算当前集合与下一个集合中图像的互信息值，将两个集合的互信息值与阈值进行比较，得到经过合并后的新的集合；

步骤10，在每一个集合中，计算所有图像与其他图像之间的互信息值最大的一帧图像作为最终的视频摘要图像，如图10所示。

Claims

1.一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法，其特征在于，具体操作过程包括如下步骤：

2.如权利要求1所述的一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法，其特征在于，所述步骤1的具体过程如下：

3.如权利要求1所述的一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法，其特征在于，所述步骤2的具体过程如下：

定义视频序列为F＝{F₁,F₂,F₃,…,F_N}，表示一段视频中的N个图像序列，静态显著图像序列为F'＝{F₁',F₂',F₃',…,F'_N}，对计算得到的静态显著性图像使用均值滤波器去除部分噪声后，将其与原图像序列F逐像素相乘进行合并，从而增强不同像素点之间的对比度并突出梯度，得到最终的静态显著性图像

4.如权利要求1所述的一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法，其特征在于，所述步骤3包括如下操作过程：

步骤3.3，计算融合后的相邻帧特征图像之间的欧式距离；

5.如权利要求4所述的一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法，其特征在于，所述步骤3.1的具体过程如下：

L＝H*Q_s*Q_v+S*Q_v+V (1)

其中，Q_s和Q_v是量化的等级；

步骤3.1.2，提取原视频图像序列中每一帧图像的纹理特征；

步骤3.3.3，提取原视频图像序列的光流信息图；

忽略其二阶无穷小，Δt趋近于0时有

6.如权利要求5所述的一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法，其特征在于，所述步骤3.2的具体过程如下：

7.如权利要求6所述的一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法，其特征在于，所述步骤3.3的具体过程如下：

8.如权利要求1所述的一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法，其特征在于，所述步骤4包括如下操作过程：

步骤4.2，将得到的所有互信息值的平均值设定阈值，根据阈值使用层次聚类方法，对显著性检测结果的图像依据互信息值进行筛选，若当前帧与下一帧之间的互信息值小于阈值，则将当前帧划分至一个新的分类集合中，再与之后的帧进行比较；若当前帧与下一帧之间的互信息值大于等于阈值，则将下一帧划分到当前的分类集合中，最终将所有检测结果的图像通过阈值划分到不同的集合中；

9.如权利要求8所述的一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法，其特征在于，所述步骤4的具体过程如下：

10.如权利要求9所述的一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法，其特征在于，所述步骤5的具体过程如下：

其中，value表示当前图像x与下一个图像y的互信息值。