CN107027051A

CN107027051A - 一种基于线性动态系统的视频关键帧提取方法

Info

Publication number: CN107027051A
Application number: CN201610596600.8A
Authority: CN
Inventors: 罗冠; 胡卫明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2016-07-26
Filing date: 2016-07-26
Publication date: 2017-08-08
Anticipated expiration: 2036-07-26
Also published as: CN107027051B

Abstract

本发明公开了一种基于线性动态系统的视频关键帧提取方法，该方法包括以下步骤：步骤1，收集待处理的视频数据文件；步骤2，初始化一个视频片段，计算所述视频片段的线性动态系统模型参数，根据模型参数计算视频片段的重构误差；步骤3，逐帧增加所述视频片段的长度，重复步骤2直到重构误差超过预设的阈值；步骤4，将最后确定的视频片段的中间帧作为该片段的关键帧；步骤5，在前一个视频片段后初始化下一个新的视频片段，重复步骤2至步骤4直到所述视频数据文件结束。本发明可以显著提高关键帧在语义内容上的描述能力，可以应用在互联网视频内容检索、敏感视频检测与过滤以及智能视频监控等业务中。

Description

一种基于线性动态系统的视频关键帧提取方法

技术领域

本发明涉及图像处理及计算机应用技术领域，特别涉及一种基于线性动态系统的视频关键帧提取方法。

背景技术

随着多媒体技术和互联网技术的飞速发展，以视频为代表的多媒体数据正在以惊人的速度增长。例如，在银行、机场、居民生活区等地区安装用于安防的监控系统，每天产生大量的监控视频数据；再例如，在互联网上存储着海量的视频节目，而且每时每刻还在不断地高速增长。如何在如此海量的视频数据中对其中包含的有用信息进行快捷定位、方便获取以及有效管理是一个亟待解决的问题。该问题的本质就是如何用计算机技术对视频内容进行有效分析和表达，使得其能够建立上下文信息和相关的领域知识，从而融合各种线索进行推理，以此为基础建立特征与语义之间的联系。这一问题的有效解决将对相关产业的深入发展起到重要的促进和推动作用。

视频内容分析技术的一个重要环节是关键帧提取。视频关键帧是指在视频帧序列中具有代表性，能够反映一个镜头序列内容梗概的图像帧。关键帧用以描述视频片段的主要内容，关键帧的使用大大减少了视频索引的数据量，同时也为视频摘要和检索提供了一个组织框架。同时用关键帧来代表视频片段，然后提取关键帧的纹理、颜色以及运动等特征，将这些特征存储到视频数据库中以便进行相似性匹配，从而达到快速检索视频内容的目的。

目前主要有以下几类关键帧提取方法：一、基于等间隔或随机间隔采样的方法，这类方法每隔一段时间从视频中提取一帧作为关键帧，其优点是方法简单，缺点是视频的采样间隔很难和视频内容分布一致；二、基于帧间全局信息比较的方法，这类方法通过优化一个预先定义的目标函数的分布来提取关键帧，其优点是选取的关键帧可以反映一个片段内的全局特性，关键帧的数目可控，缺点是这类方法计算量大；三、基于聚类的方法，这类方法将视频的每一帧看作特征空间中的一个点，聚类中心的点看作是整个视频的关键帧。目前层次聚类、模糊C均值聚类、混合高斯模型等聚类方法都被用在关键帧提取之中。这类方法最大的缺点是计算量相对较大；四、基于运动分析的方法，这类方法首先计算每一帧的光流，然后通过光流计算运动矩阵，最后把该矩阵作为时间函数进行分析并选出关键帧。这类方法非常依赖局部信息，因此鲁棒性不强；五、基于MPEG宏块统计特性的方法，这类方法利用帧中宏块编码方式的不同生成帧差，通过对帧差的度量提取关键帧，这类方法不需要解压视频，可以进行实时关键帧提取，但是压缩域可以利用信息不多，关键帧提取不够准确。综上所述，目前这些方法在关键帧提取上几乎没有考虑如何利用视频片段中的表观信息和运动信息，也没有考虑自适应的关键帧采样方法。为此，本发明提供了一种新的视频关键帧提取方法，可以显著提高关键帧在语义内容上的描述能力。

发明内容

为了保证提取视频关键帧具有代表性，本发明提出了一种基于线性动态系统的视频关键帧提取方法，可以显著提高关键帧在语义内容上的描述能力。

本发明提出的一种基于线性动态系统的视频关键帧提取方法，包括以下步骤：

步骤1：获取待处理的视频数据文件；确定视频片段的最小长度L；以视频数据文件的第一个视频帧为起始帧，选取视频帧数为L的视频片段构成第n个视频片段；n＝1；

步骤2：获取第n个视频片段并进行初始化，计算该视频片段的线性动态系统模型参数，根据线性动态系统模型参数计算该视频片段的重构误差E；

步骤3：判断重构误差E是否小于预设的阈值Θ，若E＜Θ，将第n个视频片段的长度增加一帧，令L＝L+1，形成调整后的第n个视频片段，执行步骤2；若E≥Θ，以视频帧数为L的第n个视频片段作为最后确定的视频片断，执行步骤4；

步骤4：将最后确定的视频片段中的任一帧作为该视频片段的关键帧；

步骤5：以步骤4中最后确定的视频片段后的第一帧为起始帧，选取长度为L的视频片段为第n+1个视频片段，令n＝n+1；若所获得视频片段的视频帧数等于L，重复步骤2至步骤4；若所获得视频片段的视频帧数小于L，则输出所述视频数据文件的所有关键帧。

优选的，步骤2中所述的重构误差E的计算方法为：

步骤21，用Y_1:L表示初始化的视频片段，令Y_1:L满足线性动态系统模型，公式表示为：

其中，Y_1:L＝{y₁,…,y_i,…,y_L}，其中y_i是第i帧视频图像变换得到的列向量；下标t表示Y中第t个视频帧的时刻；x_t表示线性动态系统的状态变量；y_t表示线性动态系统的特征变量；v_t,w_t表示系统的噪音变量；A,C表示线性动态系统的模型参数；

步骤22，通过奇异值分解和最小二乘法得到所述线性动态系统模型的参数A、C；

奇异值分解的基本方法为：假设M是一个m×n阶矩阵，则存在一个分解使得M＝UΣV*；其中U是m×m阶酉矩阵，Σ是半正定m×n阶对角矩阵，V*是V的共轭转置，且V*为n×n阶酉矩阵。

本事实例中，首先对于Y_1:L进行奇异值分解：Y_1:L＝UΣV^T

得到模型参数C和系统状态变量X：C＝U,X＝ΣV^T

模型参数A在最小二乘意义下的计算公式如下：

其中，表示莫尔-潘鲁斯(Moore-Penrose)广义逆矩阵；

步骤23，根据模型参数A,C计算视频片段的重构误差E，公式为：

优选的，步骤4中确定关键帧的方法具体为：后确定的视频片段中的中间帧作为该视频片段的关键帧。

优选的，线性动态系统的状态变量x_t的维数取值范围为[3，10]。

优选的，步骤3中还包括是否为视频数据文件最后一个视频帧的判断，具体方法为：若E＜Θ，则判断当前第n个视频片段的最后一帧是否为视频数据文件最后一个视频帧，若是，则输出所述视频数据文件的所有关键帧；若否，则将第n个视频片段的长度增加一帧，令L＝L+1，形成调整后的第n个视频片段，执行步骤2。

优选的，所述的重构误差阈值Θ的取值范围为[0.2，0.4]。

优选的，视频片段的最小长度L取值范围为[10，15]。

本发明提出的基于线性动态系统的视频关键帧提取方法，能够同时刻画视频片段的静态表观信息和动态运动信息，因此能够描述在语义上一致的视频内容，从而保证视频关键帧具有代表性；本发明通过线性动态系统的重构误差来自适应地调整视频片段的长度，因此可以通过阈值来控制关键帧的数量。

附图说明

图1为本发明方法的流程示意图；

具体实施方式

为了使得本发明的优点、技术方案、发明目的更加明白清楚，下面结合实例和附图，对本发明进行更进一步分详尽说明。其中，此处所用的具体实施实例仅仅用于解释本发明，并不用于限定本发明。

本发明提出的一种基于线性动态系统的视频关键帧提取方法的流程示意图如图1所示，具体包括以下步骤：

视频片段的最小长度L取值范围为[10，15]。

本事实例中步骤2中所述的重构误差E的计算方法为：

步骤21，用Y_1:L表示初始化的视频片段，令Y_1:L满足线性动态系统模型，如公式(1)所示：

其中，Y_1:L＝{y₁,…,y_i,…,y_L}，其中y_i是第i帧视频图像变换得到的列向量；下标t表示Y中第t个视频帧的时刻；x_t表示线性动态系统的状态变量，其维数称为线性动态系统的阶数，通常这个阶数远远小于特征变量y_t的维度，其取值范围为[3，10]；y_t表示线性动态系统的特征变量(如t表示Y中离散的视频帧i的时刻，则y_t＝y_i)；v_t,w_t表示系统的噪音变量；A,C表示线性动态系统的模型参数。

步骤22，通过奇异值分解和最小二乘法得到所述线性动态系统模型的参数A、C。

为了得到模型参数A,C，首先对于Y_1:L进行奇异值分解，如公式(2)所示：

Y_1:L＝UΣV^T (2)

得到模型参数C和系统状态变量X，分别如公式(3)和(4)所示：

C＝U (3)

X＝ΣV^T (4)

模型参数A在最小二乘意义下的计算公式如公式(5)所示：

其中，表示莫尔-潘鲁斯(Moore-Penrose)广义逆矩阵。

步骤23，根据模型参数A,C计算视频片段的重构误差E，如公式(6)所示：

步骤3：判断重构误差E是否小于预设的阈值Θ，若E＜Θ，表示视频片段的内容已经不能用所述线性动态系统描述，此时将第n个视频片段的长度增加一帧，令L＝L+1，形成调整后的第n个视频片段，执行步骤2；若E≥Θ，表示所述线性动态系统还能描述更多的视频内容，此时以视频帧数为L的第n个视频片段作为最后确定的视频片断，执行步骤4；

所述的重构误差阈值Θ的取值范围为[0.2，0.4]。

步骤3中还包括是否为视频数据文件最后一个视频帧的判断，具体方法为：若E＜Θ，则判断当前第n个视频片段的最后一帧是否为视频数据文件最后一个视频帧，若是，则输出所述视频数据文件的所有关键帧；若否，则将第n个视频片段的长度增加一帧，令L＝L+1，形成调整后的第n个视频片段，执行步骤2。

步骤4：将最后确定的视频片段中的中间帧作为该视频片段的关键帧；

步骤4具体为：假设最终确定的视频片段长度为T，由于该视频片段能够由一个线性动态系统描述，因此该视频片段所有的帧具有近似线性的关系，可以随机选取任意一帧作为关键帧。本事实例中选取中间帧作为关键帧。

由于调节重构误差阈值Θ可以调节线性动态系统的长度，因此可以间接控制关键帧的数量。

本发明可以显著提高关键帧在语义内容上的描述能力，可以应用在互联网视频内容检索、敏感视频检测与过滤以及智能视频监控等业务中。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于线性动态系统的视频关键帧提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤2中所述的重构误差E的计算方法为：

首先对于Y_1:L进行奇异值分解：Y_1:L＝UΣV^T

得到模型参数C和系统状态变量X：C＝U,X＝ΣV^T

模型参数A在最小二乘意义下的计算公式如下：

其中，表示莫尔-潘鲁斯(Moore-Penrose)广义逆矩阵；

3.根据权利要求1或2所述的方法，其特征在于，步骤4中确定关键帧的方法具体为：后确定的视频片段中的中间帧作为该视频片段的关键帧。

4.根据权利要求2所述的方法，其特征在于，线性动态系统的状态变量x_t的维数取值范围为[3，10]。

5.根据权利要求3所述的方法，其特征在于，步骤3中还包括是否为视频数据文件最后一个视频帧的判断，具体方法为：若E＜Θ，则判断当前第n个视频片段的最后一帧是否为视频数据文件最后一个视频帧，若是，则输出所述视频数据文件的所有关键帧；若否，则将第n个视频片段的长度增加一帧，令L＝L+1，形成调整后的第n个视频片段，执行步骤2。

6.根据权利要求3所述的方法，其特征在于，所述的重构误差阈值Θ的取值范围为[0.2，0.4]。

7.根据权利要求3所述的方法，其特征在于，视频片段的最小长度L取值范围为[10，15]。