CN112579823A

CN112579823A - 基于特征融合和增量滑动窗口的视频摘要生成方法及系统

Info

Publication number: CN112579823A
Application number: CN202011586780.4A
Authority: CN
Inventors: 吕晨; 马彩霞; 姜雪; 王欣; 柴春蕾; 吕蕾; 刘弘
Original assignee: Shandong Normal University
Current assignee: Hubei Central China Technology Development Of Electric Power Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-03-30
Anticipated expiration: 2040-12-28
Also published as: CN112579823B

Abstract

本申请公开了基于特征融合和增量滑动窗口的视频摘要生成方法及系统，对待处理视频基于图建模的方式进行特征表示，得到每一帧图像对应的若干个图特征表示；计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值；对每一帧图像的所有特征差异值进行自适应加权求和，得到每一帧图像的差异度量；采用自适应长度的滑动窗口对待处理视频进行滑动检测；在滑动窗口滑动检测的过程中，假设滑动窗口内R帧图像的差异度量符合正态分布，计算第R+1帧的差异度量是否符合同一正态分布；如果不符合则表示存在镜头边界；对每个镜头中的所有帧图像进行聚类处理，获取关键帧；将所有的关键帧按照时间顺序进行排列生成视频摘要。

Description

基于特征融合和增量滑动窗口的视频摘要生成方法及系统

技术领域

本申请涉及视频检索、视频存储、视频浏览等视频处理技术领域，特别是涉及基于特征融合和增量滑动窗口的视频摘要生成方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

视频自动摘要是通过对于视频内容的分析和理解，从原始视频中提取有意义的片段(动态摘要)/帧(静态摘要或关键帧提取)。这种方法不仅减少了用户检索和浏览视频的时间，而且在一定程度上减少了人工摘要所花费的成本。由于动态视频摘要存在同步和复杂的操作问题，而关键帧的提取实现起来简单且不受同步条件限制，因此基于关键帧的视频摘要技术得到了广泛研究。

现有的关键帧提取算法中，像基于聚类、字典学习、深度学习的方法由于需要先验知识或依赖于大量数据，因而实现起来效率较低、实时性较差。基于镜头边界检测的算法由于只依赖一个局部数据流，因而实现效率高。

基于镜头边界的检测算法通常与帧的空间特征提取、连续帧之间的差异度量方式、阈值的设定有关。现有方法中为捕获多视觉特性，通常采用固定的加权多特征融合方式，这种方法虽有成效，但忽略了视频内容的动态性和在线视频类型的未知性和多样性，因而容易受到局部噪音的影响，算法的适用性也较差。另外现有方法中为提高镜头检测精度，采用了自适应阈值，但是这种方法经常需要和滑动窗搭配使用，增加了多参数的调节问题。

发明内容

为了解决现有技术的不足，本申请提供了基于特征融合和增量滑动窗口的视频摘要生成方法及系统；镜头检测方面：其一，通过学习增量滑动窗内的连续帧间的颜色、纹理、边缘在时域上的动态变化，来为每种特征差异自适应分配权重，提高了对于未知视频镜头边界的检测精度。其二，在镜头变更决策方面，提出一种新的自适应阈值，该阈值是在自增的滑动窗内自适应的调节，从而避免了多参数的调节问题，增强了镜头检测的鲁棒性。其三，在关键帧提取方面，提出了一种实时关键帧提取框架。该框架依赖于局部的数据流学习，无需人工干预，预期可提高用户的满意度。

第一方面，本申请提供了基于特征融合和增量滑动窗口的视频摘要生成方法；

基于特征融合和增量滑动窗口的视频摘要生成方法，包括：

获取待处理视频；对待处理视频基于图建模的方式进行特征表示，得到每一帧图像对应的若干个图特征表示；

获取待处理视频的中值图；计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值；对每一帧图像的所有特征差异值进行加权求和，得到每一帧图像的差异度量；

采用自适应长度的滑动窗口对待处理视频进行滑动检测；在滑动窗口滑动检测的过程中，假设滑动窗口内R帧图像的差异度量符合正态分布，计算第R+1帧的差异度量是否符合同一正态分布；其中R为正整数；如果符合就表示不存在镜头边界；如果不符合则表示存在镜头边界；按照镜头边界对待处理视频进行划分，划分出对应的镜头；

对每个镜头中的所有帧图像进行聚类处理，将距离簇中心最近的帧作为关键帧；将所有的关键帧按照时间顺序进行排列，生成视频摘要。

第二方面，本申请提供了基于特征融合和增量滑动窗口的视频摘要生成系统；

基于特征融合和增量滑动窗口的视频摘要生成系统，包括：

图特征表示模块，其被配置为：获取待处理视频；对待处理视频基于图建模的方式进行特征表示，得到每一帧图像对应的若干个图特征表示；

差异度量获取模块，其被配置为：差异度获取待处理视频的中值图；计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值；对每一帧图像的所有特征差异值进行加权求和，得到每一帧图像的差异度量；

镜头边界检测模块，其被配置为：采用自适应长度的滑动窗口对待处理视频进行滑动检测；在滑动窗口滑动检测的过程中，假设滑动窗口内R帧图像的差异度量符合正态分布，计算第R+1帧的差异度量是否符合同一正态分布；其中R为正整数；如果符合就表示不存在镜头边界；如果不符合则表示存在镜头边界；按照镜头边界对待处理视频进行划分，划分出对应的镜头；

视频摘要生成模块，其被配置为：对每个镜头中的所有帧图像进行聚类处理，将距离簇中心最近的帧作为关键帧；将所有的关键帧按照时间顺序进行排列，生成视频摘要。

第三方面，本申请还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本申请还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本申请的有益效果是：

(1)本申请提出一种基于多特征图的自适应差异融合方法来检测实时视频的镜头边界。该方法根据滑动窗内的观测数据波动进行自适应学习，来捕获帧与帧之间的动态特性，增强了算法对于不同视频的适用性以及不同镜头检测的鲁棒性。

(2)本申请提出一种新的自适应阈值计算方法来进行实时镜头分割。利用递增滑动窗内的特征差异融合序列来学习一个容忍因子κ，并结合一个固定的全局参数α来对当前阈值进行自适应的微观调整，避免了人工干预和多参数调节问题。

(3)本申请提出一种适用于实时关键帧提取的框架。该框架计算效率高，利用一个局部观测数据流进行学习，便可对当前帧进行一个镜头变更检测，从而实现关键帧的实时提取，预期可提升在线浏览者的用户体验。

本申请附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本申请总体框架流程示意图。

图2为本申请自适应容忍系数的学习流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本申请使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如其中，所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了基于特征融合和增量滑动窗口的视频摘要生成方法；

如图1所示，基于特征融合和增量滑动窗口的视频摘要生成方法，包括：

S100：获取待处理视频；对待处理视频基于图建模的方式进行特征表示，得到每一帧图像对应的若干个图特征表示；

S200：获取待处理视频的中值图；计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值；对每一帧图像的所有特征差异值进行加权求和，得到每一帧图像的差异度量；

S300：采用自适应长度的滑动窗口对待处理视频进行滑动检测；在滑动窗口滑动检测的过程中，假设滑动窗口内R帧图像的差异度量符合正态分布，计算第R+1帧的差异度量是否符合同一正态分布；其中R为正整数；如果符合就表示不存在镜头边界；如果不符合则表示存在镜头边界；按照镜头边界对待处理视频进行划分，划分出对应的镜头；

S400：对每个镜头中的所有帧图像进行聚类处理，将距离簇中心最近的帧作为关键帧；将所有的关键帧按照时间顺序进行排列，生成视频摘要。

作为一个或多个实施例，所述S100：获取待处理视频；具体包括：

对视频流进行采样处理，得到待处理视频。

示例性的，对视频流进行预采样得到学习集LF＝{f₁，f₂，.....f_r}，r＝1，2，3...R降低视频分析时间复杂度。

示例性的，对视频流以每秒5帧的采样率进行处理，得到学习集合LF＝{f₁,f₂,f₃,...,f_r}。

作为一个或多个实施例，所述S100：对待处理视频基于图建模的方式进行特征表示，得到每一帧图像对应的若干个图特征表示；具体包括：

S101：对待处理视频的每一帧图像进行特征采集，采集的特征包括：模糊颜色直方图FCH、局部纹理直方图LBP、边缘方向直方图Canny和边缘梯度直方图Sobel；

S102：针对每帧提取的四种特征中的每一种特征均进行图建模，得到四个图集。

进一步地，所述针对每帧提取的四种特征中的每一种特征均进行图建模，得到四个图集；图建模的具体步骤包括：

以每一种特征中的每个分量为节点，任意两个节点之间的欧式距离作为两个节点连接边的权重，构造图模型；将图模型转换为邻接矩阵。

示例性的，提取LF学习集中每帧的模糊颜色直方图FCH、局部纹理直方图LBP、边缘方向直方图Canny、边缘梯度直方图Sobel特征；

针对每帧提取的四种特征，分别进行图建模，得到四个图集G_i ^k(k＝1，2，3，4分别对应FCH、LBP、Canny、Sobel直方图特征)。

应理解的，特征作为在基于镜头划分的关键帧提取的第一步，它对于后期镜头边界的划分准确度以及关键帧的提取质量有着很大的影响。为此本申请将从颜色、纹理、边缘等多角度来考虑帧的视觉特性，提取帧的FCH颜色直方图、sobel梯度直方图、canny边缘方向直方图、LBP纹理直方图用于帧的图建模。

FCH(Fuzzy Color Histogram，模糊颜色直方图)特征，色彩是一种重要的视觉特征，具有旋转不变性和平移不变性的优点。其中FCH颜色直方图，考虑人类对于颜色的感知特性，不再对像素点的归属进行硬性划分，而是通过模糊集隶属函数考虑每个像素颜色与所有关联的每个像素颜色的颜色相似性，克服了传统颜色直方图对于图像亮度、量化误差敏感问题。其处理方式如下：将帧从RGB空间转换为更符合人眼感知的HSV空间，接着设定聚类数目为192区间，并通过模糊均值聚类的方式不断迭代计算每个像素点归属于各个区间的隶属度，最终得到192维度的模糊颜色直方图。

sobel边缘梯度直方图，图像的形状梯度特征能够对图片的整体结构进行形象的表达。采用sobel算子进行边缘特征的提取，主要是因为由于该算子中引入了类似局部平均的运算，对噪声具有平滑作用，能很好的消除噪声的影响。此外，该算子对像素的位置做了加权，与其他的边缘检测算子相比具有更好的鲁棒性。其计算过程为：首先采用3*3的横向sobel算子模板，计算每一个像素的横向梯度Gx值；然后采用3*3的纵向sobel算子模板，计算每一个像素的纵向梯度Gy值；最后将横向梯度Gx和纵向梯度Gy结合得到每一个像素点的梯度值G。进一步的将每个梯度值映射到[0,254]的区间范围。对每个帧补丁进行遍历，会得到每个梯度值的频率，因此本申请会得到每个帧补丁的255维度的边缘梯度直方图。

canny边缘梯度方向直方图，是基于轮廓的形状描述符，是边缘检测理论基础上提出的一种形状边缘特征提取方法。由于该方法是基于局部特征的全局特征统计，增强了不同帧的区分能力。其计算过程如下：首先将图像灰度化，通过3*3大小的sobel卷积核，得到每一个像素点的梯度方向；然后采用canny得到图像的边缘；接着将[-180,180]的梯度方向划分为72个区间；最后对边缘的每个像素点的梯度方向做统计，得到72维度的边缘方向直方图特征。

LBP(Local binary patterns，局部二值模式)纹理直方图特征，是一种局部纹理特征算子，其具有旋转不变性和灰度不变性。LBP直方图描述物体的纹理信息，常用于纹理分类和人脸识别。由于LBP是一种相对灰度分布特性，对光照和噪音具有一定程度的抑制能力。具体来说。在3*3的窗口内，以中心像素为基点，与相邻的像素的灰度值的大小进行比较，由此得到八位二进制数，接着将其转换十进制数值，作为中心像素的LBP值，且其范围在[0,255]。

虽然以上选取的特征包含了颜色，梯度，边缘梯度方向，纹理等多方面，但是各个特征是一个基于全局的统计特征缺乏一个局部间的结构表达，为此利用直方图的结构分量间的关系来进行空间语义结构表达，利用相对性的变化加强对抑制噪音、闪光的鲁棒性，利用绝对性的变化，提高对于渐变帧的敏感性。具体地，本申请将为每个特征建立一个无向加权图，帧的图模型G_i ^k(k＝1，2，3，4分别表示FCH、sobel、canny、LBP特征表示的图的索引)，具体建模过程如下

3-1)以直方图的每个分量为节点V_i，节点V_i，V_j之间的欧式距离为边e_i,j的权重值d_i,j(i，j＝1，2，3...T)构造图模型G_i ^k

3-2)为节省实际使用时的空间消耗，将G_i ^k表示为上三角邻接矩阵

由上可知视频帧集LF＝{f₁,f₂,f₃,...,f_i,....,f_r}相对应的的图集为

其中图节点之间的相对变化成为抑制闪光，噪音的关键因素，且其强连通性深度表达了帧的空间结构信息。最后，将特征k的图序列G^k表示为邻接矩阵序列，即，

式中

表示帧f_i对应的特征k表示的图G_i ^k的邻接矩阵。

作为一个或多个实施例，所述S200：获取待处理视频的中值图；具体包括：

将待处理视频中的距离所有帧距离之和最小的帧作为所述待处理视频的中值图。

示例性的，针对如何从观测数据中找到最佳代表帧的问题，从一定程度上避免镜头漏检或者误检测，为此本申请引入了中值图作为过去观测数据的代表值与当前帧进行比较，具体表示如下：

学习集为LF＝{f₁,f₂,f₃,...,f_i,....,f_r}，其所对应的图集为

其所对应的中值图为：

由上式可知，中值图是求得的图集中离所有帧距离之和最小的帧，上式中k＝1，2，3，4。

作为一个或多个实施例，所述S200：计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值；具体包括：

计算当前图像的第一个图特征表示与中值图的第一个图特征表示的第一特征差异值；

计算当前图像的第二个图特征表示与中值图的第二个图特征表示的第二特征差异值；

计算当前图像的第三个图特征表示与中值图的第三个图特征表示的第三特征差异值；

计算当前图像的第四个图特征表示与中值图的第四个图特征表示的第四特征差异值。

采用SDEWV(Similarity metric based on sum of differences in edge-weight values,基于边权的差异之和的相似度量方法)计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值；

其中Δ_i,j为两个图对应边d_i,j和d'_i,j的差异的规范化形式，具体计算如下：

最后得到规范化距离计算方式如下：

其中D为归一化因子，且D＝#{Δ_i,j:Δ_i,j>0}，其中i,j＝1,2,3,4....T,#{·}为计数函数。

根据公式(8)、公式(9)和公式(10)，计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值

(这里的

和R_SDEWV'(G^k,G^k')表达的含义是一样的，为方便表示，将其表示为

)。

示例性的，基于中值图的差异比较方法，得到学习集LF中每一帧与中值图的的差异。

应理解的，本申请是在基础特征上进行了图建模，因此需要选择一个合适的距离度量方式来进行图的差异性分析。在以前的研究中提到了一种SDEWV(Similarity metricbased on sum of differences in edge-weight values,基于边权的差异之和的相似度量方法)，它主要考虑了两个无向图之间对应边的差异性，通过计算对应边差异的绝对值之和，来检测图的差异性。其具体公式如下：

另外考虑到不同数量级节点的变化，对上述的计算进行了归一化处理得到公式(8)。

作为一个或多个实施例，所述S200：对每一帧图像的所有特征差异值进行加权求和，得到每一帧图像的差异度量；具体包括：

首先，根据所有帧图像的所有特征差异值，计算出每一种特征差异值的方差，然后根据每一种特征差异值的方差，计算出每一种特征差异值的自适应权重；

其次，根据每一种特征差异值的自适应权重，对每一帧图像的所有特征差异值进行加权求和，得到每一帧图像的差异度量。

示例性的，所述S200：对每一帧图像的所有特征差异值进行加权求和，得到每一帧图像的差异度量；具体包括：

S201：首先，按照基于图的差异性度量，计算学习图集G^k中每一个时刻r(1<r<R)所对应的差异

最终得到差异集合

S202：通过

将

规范化为

其中

分别为寻找最大值、最小值的函数；

S203：从

学习新的度量差异度量集合{DI_r ^MD_weight}，r＝2，3...R公式如下：

其中，w_k是特征k的差异权重，假设

是特征图k的差异方差，则

可以无偏估计为：

然后根据

得到每种特征图差异的自适应权重w_k：

如前所述，不同的特征对于不同镜头检测效果是不一样的，如果某种特征图的差异在一个镜头中的波动比较小，那么认为这种特征对于当前镜头是更适用的，因此本申请应该为这种特征差异分配更高的权重。

示例性的，多特征图差异融合分析。根据前R帧，重新为每一时刻t的各个特征差异分配权重(t≤R)。

自适应多特征图结构差异融合。根据分配的各特征图的差异权重，进行自适应加权特征差异融合。

应理解的，由于视频内容的动态性和复杂性，以及视频类型的多样性和未知性，不同特征对于不同视频的镜头的检测效果是不一样的，为了合理的利用每种特征检测的有效性，本申请从视频结构本身出发，设计了一种新的自适应加权差异度量方法，将上述所提出的四种特征进行自适应融合。

作为一个或多个实施例，所述S300：采用自适应长度的滑动窗口对待处理视频进行滑动检测；具体包括：如果第i处不存在镜头边界:n_i+1＝n_i,L_i+1＝L_i+ΔL

如果第i处存在镜头边界:n_i+1＝i,L_i+1＝L₁

其中，n_i是计算当前自适应阈值的开始时间，L_i是当前的滑动窗口长度。在镜头检测开始时，设置L₁的初始长度为5，n₁＝1；检测结束的条件为n_i+L_i>n,其中n是一个离线的视频帧的数量或者在实时应用中检测结束时间设置为一个预定义的时间长度。ΔL是一个被设置为1的步长，用来更新窗口的长度。

应理解的，在实时的视频流传输中，视频的镜头长度可能存在不同，镜头转换的方式也存在不同，因此很难在长时间内用一个固定的滑动窗去捕获各种镜头的过渡，滑动窗过长过短都会使得镜头的错误检测。为了克服这种问题，本专利提出了一个带有递增的滑动窗的自适应阈值进行实时的镜头检测。

其主要思想就是滑动窗的长度L会根据当前是否存在镜头改变而自动更新。

作为一个或多个实施例，所述在滑动窗口滑动检测的过程中，假设滑动窗口内R帧图像的差异度量符合正态分布，计算第R+1帧的差异度量是否符合同一正态分布；其中R为正整数；如果符合就表示不存在镜头边界；如果不符合则表示存在镜头边界；按照镜头边界对待处理视频进行划分，划分出对应的镜头；具体包括：

H₀:DI^MD_weight≤μ+ακσ，不存在镜头边界

H₁:DI^MD_weight>μ+ακσ,存在镜头边界

其中，μ是前r帧所得到的自适应加权差异的均值，σ是前r帧自适应加权差异的标准差，α是控制全局检测精度的一个固定参数，κ是引入的新的容忍因子，通过学习κ实现对当前的阈值进行微观调整。

对于一个镜头来说，镜头内的帧都是相似的，那么镜头内所得到的差异{DI_r ^MD ^_weight}应该是服从正态分布，因此本申请通过分析当前差异是否符合同一正态分布，来判定当前位置是否存在镜头。

由上面得到的{DI_r ^MD_weight}是一个镜头内所得到的正常范围内的加权特征差异融合值，因此本专利做了一个检测精度的定义η＝q/total,其中，q为正确检测到的镜头内正常的加权差异个数，total为{DI_r ^MD_weight}包含的加权差异总个数，设定学习的精度阈值为λ^*＝0.98，κ为要寻找的容忍系数(初始值设置为0)去控制一个检测精度的大小。另外还有其他的一些相关参数，r为控制循环的变量，且0<r<total，μ是前R帧所得到的自适应加权差异的均值，σ是前R帧自适应加权差异的标准差，Value为当前变量第r帧的加权差异融合值。容忍系数κ的具体学习过程如下：

a)设置q＝0，容忍系数κ＝0，学习精度阈值为λ^*＝0.98，step＝0.1,r＝1为{DI_r ^MD ^_weight}集合元素索引r<R，total＝R-1，

转至b)；

b)若Value<μ+κ*σ,则转至d)；否则转至c)；

c)更新q＝q+1，r＝r+1，转至e)；

d)r＝r+1，转至e)；

e)若r<total，转至f)；否则转至步骤g)；

f)Value＝DI[r]，转至b)；

g)计算η＝q/toal，转至h)；

h)若η<λ^*，转至j)；否则转至i)；

i)更新κ＝κ+0.1，q＝0，r＝0，转至f)；

j)输出κ，转至k)；

k)算法结束.

以上算法流程请参考图2。

示例性的，本申请提出一种新的自适应阈值的镜头边界检测方法，引入容忍因子κ，其主要步骤如下：

1)设置检测精度η＝q/total，容忍系数κ＝0，学习精度阈值为λ^*＝0.98，step＝0.1；

2)通过判断学习精度η是否满足阈值λ^*找到对应的κ；

3)在当前容忍系数κ下，判断是否存在镜头边界。

作为一个或多个实施例，所述S400：对每个镜头中的所有帧图像进行聚类处理，将距离簇中心最近的帧作为关键帧；具体包括：

S401：采用基于SOM(Self-organizing Mapping，自组织映射)聚类算法自动的对划分好的镜头进行内部聚类；

S402：将小于等于三帧的簇进行剔除；

S403：寻找距离聚类中心最近的帧作为关键帧。

本申请提出一种基于自适应多特征融合和增量滑动窗口的实时镜头转变检测和关键帧提取技术，该技术主要包含四个核心模块：1)基于图的特征表示；2)基于自适应加权多特征图的结构差异融合方法；3)基于自适应阈值的镜头边界检测方法；4)基于SOM自组织映射(Self-organizing Mapping，自组织映射)聚类的关键帧提取方法。

SOM(Self-organizing Mapping，自组织映射)是一种无监督的聚类方法。在传统的聚类方法中，大多数的算法需要根据先验知识来设定簇的个数，而Kohonen SOM它运用竞争学习(competitive learning)策略,依靠神经元之间互相竞争逐步优化网络，通过自学习的方式获得各个簇的集合，这意味着本申请可以在不知道类别的情况下，对数据进行聚类；可以识别针对某问题具有内在关联的特征。

关键帧提取的主要思想是通过前r帧的学习实现镜头的划分，这种方法最大的缺陷是容易忽略掉小于r帧的短镜头，因此本申请首先采用了SOM(Self-organizingMapping，自组织映射)聚类方法对每个镜头进行关键帧提取，具体如下：

1)采用SOM自动的对前面划分好的视频段进行内部聚类

2)将帧的数量小于等于3帧的簇进行剔除

3)将距离簇的中心最近的帧作为关键帧，具体如下：

其中

是当前视频镜头中f_i帧对应的FCH模糊颜色直方图特征的图模型，

是镜头S_j通过SOM算法得到的第j个簇的质心。重复步骤三得到关键帧集合KF＝{kf₁,kf₂,....kf_m}，接着将关键帧按时间顺序排列从而生成摘要。

本申请组成了一个实时镜头检测和关键帧提取框架，该框架利用一个局部观测数据流进行学习，便可对当前帧进行不同镜头的变更检测，从而可实现关键帧的实时提取，预期可提升在线浏览者的用户体验。

实施例二

本实施例提供了基于特征融合和增量滑动窗口的视频摘要生成系统；

基于特征融合和增量滑动窗口的视频摘要生成系统，包括：

此处需要说明的是，上述图特征表示模块、差异度量获取模块、镜头边界检测模块和视频摘要生成模块对应于实施例一中的步骤S100至S400，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于特征融合和增量滑动窗口的视频摘要生成方法，其特征是，包括：

2.如权利要求1所述的基于特征融合和增量滑动窗口的视频摘要生成方法，其特征是，对待处理视频基于图建模的方式进行特征表示，得到每一帧图像对应的若干个图特征表示；具体包括：

对待处理视频的每一帧图像进行特征采集，采集的特征包括：模糊颜色直方图FCH、局部纹理直方图LBP、边缘方向直方图Canny和边缘梯度直方图Sobel；

针对每帧提取的四种特征中的每一种特征均进行图建模，得到四个图集。

3.如权利要求2所述的基于特征融合和增量滑动窗口的视频摘要生成方法，其特征是，所述针对每帧提取的四种特征中的每一种特征均进行图建模，得到四个图集；图建模的具体步骤包括：

4.如权利要求1所述的基于特征融合和增量滑动窗口的视频摘要生成方法，其特征是，获取待处理视频的中值图；具体包括：

5.如权利要求1所述的基于特征融合和增量滑动窗口的视频摘要生成方法，其特征是，计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值；具体包括：

最后得到规范化距离计算方式如下：

其中D为归一化因子，且D＝#{Δ_i,j:Δ_i,j>0}，其中i,j＝1,2,3,4....T,#{·}为计数函数；

6.如权利要求1所述的基于特征融合和增量滑动窗口的视频摘要生成方法，其特征是，对每一帧图像的所有特征差异值进行加权求和，得到每一帧图像的差异度量；具体包括：

7.如权利要求1所述的基于特征融合和增量滑动窗口的视频摘要生成方法，其特征是，采用自适应长度的滑动窗口对待处理视频进行滑动检测；具体包括：

如果第i处不存在镜头边界:n_i+1＝n_i,L_i+1＝L_i+ΔL

如果第i处存在镜头边界:n_i+1＝i,L_i+1＝L₁

其中，n_i是计算当前自适应阈值的开始时间，L_i是在待测量的第i帧前的滑动窗口长度；在镜头检测开始时，设置L₁的初始长度为5，n₁＝1；检测结束的条件为n_i+L_i>n,其中n是一个离线的视频帧的数量或者在实时应用中检测结束时间设置为一个预定义的时间长度；ΔL是一个被设置为1的步长，用来更新窗口的长度；

或者，

所述在滑动窗口滑动检测的过程中，判断当前滑动窗口内的所有帧的差异度量是否符合正态分布，如果符合就表示不存在镜头边界；如果不符合则表示存在镜头边界；按照镜头边界对待处理视频进行划分，划分出对应的镜头；具体包括：

H₀:DI^MD_weight≤μ+ακσ，不存在镜头边界

H₁:DI^MD_weight>μ+ακσ,存在镜头边界

其中，μ是前r帧所得到的自适应加权差异的均值，σ是前r帧自适应加权差异的标准差，α是控制全局检测精度的一个固定参数，κ是引入的新的容忍因子，通过学习κ实现对当前的阈值进行微观调整；

或者，

对每个镜头中的所有帧图像进行聚类处理，将距离簇中心最近的帧作为关键帧；具体包括：

采用基于SOM聚类算法自动的对划分好的镜头进行内部聚类；

将小于等于三帧的簇进行剔除；

寻找距离聚类中心最近的帧作为关键帧。

8.基于特征融合和增量滑动窗口的视频摘要生成系统，其特征是，包括：

9.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。