CN102395984A

CN102395984A - 用于视频内容分析的关键帧提取

Info

Publication number: CN102395984A
Application number: CN2010800167531A
Authority: CN
Inventors: L.绍
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2009-04-14
Filing date: 2010-04-14
Publication date: 2012-03-28
Also published as: EP2419861A1; US20120027295A1; RU2011146075A; JP2012523641A; WO2010119410A1

Abstract

一种从构成镜头的帧序列中提取关键帧的方法，每帧由像素矩阵构成，该方法包括：对于帧序列的每帧：将该帧与后续帧相比的光流计算（3）为从该帧到后续帧的每个像素的位移的矩阵；基于该帧的光流计算（5）运动熵度量；将帧序列的具有最大运动熵度量的帧选择（7）为关键帧。

Description

用于视频内容分析的关键帧提取

技术领域

本发明涉及构成镜头（shot）的帧序列中的关键帧的提取领域，所述关键帧用于在视频摘要、浏览、搜索和理解中代表镜头。

背景技术

随着在因特网、移动设备和大范围的视频应用中存储和观看数字视频的流行性的快速增长，对视频数据的有效管理变得比以前重要得多。

对于自动视频检索而言，几乎不可能使用关键字描述视频序列。原因在于，人工注释需要巨大的人力，并且使用的关键字倾向于不精确且是主观的。因此，可以提供对视频序列的有效索引、检索和浏览的基于内容的技术将是一种解决方案。

用于管理视频数据的一般方法是借助于镜头切分检测或者场景分解检测将视频分割成称为“镜头”的若干组相关帧。在标识镜头边界之后，可以从每组帧（GoF）或者视频镜头中提取一个或多个关键帧或代表帧。然后，这些关键帧上的视觉内容被用来代表视频镜头以用于索引和检索。

关键帧提取是视频分析和管理中的基本部分，其提供用于视频索引、浏览和检索的适当视频摘要。关键帧的使用减少了视频索引中所需的数据量并且提供了用于处理视频内容的框架。

关键帧提取可以在场景或镜头水平下进行。通常，镜头水平下的分析是优选的，因为它保留了选择的关键帧在视频帧集中的时间顺序。

当前的关键帧提取技术可以分类成以下六类：

基于镜头边界的方法，基于视觉内容的方法，基于运动分析的方法，基于镜头活动的方法，基于无监督聚类的方法，以及基于宏块的方法。这些方法分别具有其优点。

例如，文献US2005/0002452公开了一种关键帧提取，该关键帧提取基于由亮度分布定义的熵度量以及与相邻帧的比较，使得具有最少运动活性的帧被选择。

看起来已知的提取方法在选择包含可以用于动作识别的复杂且快速变化的运动的帧方面表现得并不良好。

发明内容

有利的是实现一种提取代表镜头捕获的（多个）运动的关键帧的方法。

为了更好地解决一个或多个关切，在本发明的第一方面中，一种从构成镜头的每帧由像素矩阵构成的帧序列中提取关键帧的方法包括：

· 对于帧序列的每帧：

· 将该帧与后续帧相比的光流计算为从该帧到后续帧的每个像素的位移的矩阵；

· 基于该帧的光流计算运动熵度量；

· 将帧序列的具有最大运动熵度量的帧选择为关键帧。

所述方法特别有益于选择具有复杂且快速变化的运动的（多个）帧。

在一个特定的实施例中，

· 每个像素的位移被定义为具有模和位移角的矢量，运动直方图由代表模和位移角的组合的预定数量的面元（bin）定义。

· 丢弃具有最高频率的面元。

· 运动熵度量为每个面元的运动熵度量的总和，一个面元的运动熵度量与该面元在运动直方图中的出现频率成比例。

· 面元熵度量由该面元出现的对数频率的绝对值加权。

· 将每帧的运动直方图与另一帧的运动直方图进行比较以便将该帧的运动熵度量定义为相似性度量。

· 通过在具有预定长度的帧的滑动窗中选择所述帧序列的具有最大运动熵度量的帧而提取多个关键帧。

· 每个像素的位移定义为具有模和位移角的矢量，并且运动直方图由代表模和位移角的组合的预定数量的面元定义，运动熵度量为每个面元的运动熵度量的总和，一个面元的运动熵度量与该面元在运动直方图中出现的频率成比例，并且

· 所述方法进一步包括对于每个被选择的帧，与其相邻帧的运动直方图进行比较，并且用比较的结果对每个被选择的帧的运动熵度量进行加权。

在本发明的第二方面中，一种计算机软件产品存储在记录介质上并且包括一组指令，当计算机执行该组指令时，其使得计算机能够实施上面公开的方法。

在本发明的第三方面中，一种用于从构成镜头的帧序列中提取关键帧的装置，每帧由像素矩阵构成，该装置包括：

帧光流计算器，其用于将所述帧序列的每帧与后续帧相比的光流计算为从该帧到后续帧的每个像素的位移的矩阵；

运动熵度量计算器，其基于帧光流计算器的输出；

关键帧选择器，其用于选择帧序列的具有最大运动熵度量的帧。

取决于图像的类型，特定的实施例由于更易于适应或者由于给出更好的结果而可能是优选的。然而，可以适当地或者根据需要组合或修改这些特定实施例的各方面。

附图说明

本发明的这些和其他方面根据以下描述的实施例将是清楚明白的，并且将参照所述实施例进行阐述，其中：

- 图1为依照本发明一个实施例的方法的流程图；

- 图2为帧的运动直方图；

- 图3为图2的另一个帧运动直方图，其没有具有最高计数的面元；

- 图4为依照本发明另一个实施例的方法的流程图；以及

- 图5为依照本发明一个实施例的装置的示意图。

具体实施方式

参照图1，一种从构成镜头的帧序列中提取关键帧的方法，每帧由像素矩阵构成，该方法包括：

· 对于所述帧序列的每帧（步骤1）：

· 将与后续帧相比的帧光流计算为从该帧到后续帧的每个像素的位移的矩阵（步骤3）；

· 基于该帧光流计算运动熵度量（步骤5）；

· 将帧序列的具有最大运动熵度量的帧选择为关键帧（步骤7）。

现在参照特定实施例详细地讨论每个步骤。

考虑光流的计算，应当指出的是，每个人类活动引起可以被观察者容易地识别的特有的运动模式。光流是一种适合于识别人类动作的运动描述符。

在第一步骤中，帧的每个像素的位移通过与后续帧比较作为光流场而计算。例如，使用诸如Lucas-Kanade算法之类的标准方法计算光流场序列。

因此，对于帧k，帧i与帧i+1之间的光流F_k为每个速度矢量具有模M_i(x, y)和角度Θ_i(x, y)的速度矢量F_i(x, y)矩阵。速度矢量F_i(x, y)度量像素(x, y)从帧i到帧i+1的位移。

熵是表示数据集的不纯度或不可预测性的良好方式，因为它取决于其中进行测量的环境。

基于上面定义的光流，计算运动熵度量。

每个基于光流输出的速度矢量通过其幅度M_i(x, y)和取向Θ_i(x, y)量化。运动直方图被定义为预定数量的面元，每个面元为幅度和取向的组合，从而覆盖幅度和取向值的整个谱。例如，使用表示5个幅度水平和8个取向角度的40个直方图面元。

帧中第k个面元出现的概率给定为：

Figure 2010800167531100002DEST_PATH_IMAGE002

（1）

其中M、N为帧的大小并且h表示第k个面元的计数。P_f(k)因而为面元k中包含的像素计数与总像素数之比。

Figure 2010800167531100002DEST_PATH_IMAGE004

（2）

其中Kmax为直方图中的总面元数，在该实例中Kmax=40，并且所有面元的熵e_f(k)的总和为该帧中的运动的全局熵。面元熵度量e_f(k)因而为由面元出现的对数概率的绝对值加权的面元出现的概率。由于对数概率总是为负的，因而取绝对值以获得正值作为熵。

直观上，有峰运动直方图包含较少的运动信息，从而产生低的熵值；平坦且分布式的直方图包括更多的运动信息，并且因而得到高的熵值。

上面公开的熵最大值方法提供了关于哪些帧包含最复杂的运动的信息。在一些情形中，其中运动直方图相对于周围帧相对较快地变化的帧也包含重要的信息。因此，公开了第二实施例，其称为帧间方法或直方图交会法，并且其测量连续帧的运动之间的差异。

所述度量计算两个直方图之间的相似性。

帧i及其邻近帧（超前或滞后x帧）的运动直方图分别为H_f(i)和H_f(i±x)，并且每个分别包含Kmax个面元H_f(i, k)和H_f(i±x, k)。两个直方图的交点HI被定义为

（3）。

分母对直方图交点归一化，并且使得直方图交点的值介于0与1之间。该值实际上与来自具有邻近帧中的相同运动矢量的相应像素的当前帧的像素数成比例。较高的HI值指示两帧之间的较高的相似性。

在该方法中，HI用作运动熵度量并且将关键帧选择为具有最高HI的帧。

该方法可以用作第一种公开的方法的补充方法，因为它提供了关于两帧之间的运动矢量分布的额外信息。

在这两种方法的一种变型中，应当指出的是，视频帧通常具有前景（对象）和背景（照相机）运动，并且背景运动通常在运动直方图中是一致的且占主导的。

如图2中所示，最高的面元表示背景运动。该背景运动可以通过从直方图中简单地移除最高的面元而消除。通过这样做，包含视频序列的突出对象的区域被聚焦。图3示出了背景运动消除之后的图2的运动直方图，其中只留下了39个面元。在背景运动消除之后，直方图变成前景对象的运动分布的更好的表示。背景运动消除提高了关键帧提取的性能。

对于诸如动作识别之类的特定应用而言，一个关键帧可能并不够并且需要多个关键帧以概括镜头。因此，代替找到整个镜头的熵函数的全局最大值的是，搜索局部最大值。例如，考虑长度为n帧的滑动窗中的局部最大值。当然，也可以采用用于寻找本地最大值的更高级的技术。

通过使用局部最大值方法选择的关键帧可以用于诸如视频摘要之类的应用。对于低活性镜头，一个单个的关键帧可能就足够了，但是大多数时候，需要多个关键帧以表示镜头的内容。通过观察一组关键帧而不是单个关键帧，可以获得对于镜头的布局，例如运动的方向、背景的变化等等的更好的理解。

可以通过组合熵最大值和帧间算法获得关键帧。该组合的算法提取的帧不仅包含最复杂的运动，而且具有相对于其邻域的突出运动变化。

· 通过利用熵最大值方法挑选局部最大值而选择初始帧（步骤10，图4）；

· 对选择的初始帧应用直方图交会法（步骤12）；

· 通过选择的初始帧的相应直方图交点值对这些初始帧的熵值进行加权（步骤14）；以及

· 通过找到加权的熵曲线中的峰而提取最终的关键帧（步骤16）。

所公开的方法可以由用于从构成镜头的帧序列中提取关键帧的装置（图5）实现，该装置包括：

· 帧光流计算器20，其用于将所述镜头的每帧与后续帧相比的光流计算为从该帧到后续帧的每个像素的位移的矩阵；

· 运动熵度量计算器22，其基于帧光流计算器的输出；

· 关键帧选择器24，其用于选择镜头的具有最大运动熵度量的帧。

该装置可以包括用于接收要分析的镜头的输入构件以及例如将关键帧发送给视频数据库索引的输出构件。

尽管在所述附图和前面的描述中已经详细地图示和描述了本发明，但是这样的图示和描述应当被认为是说明性或示例性的，而不是限制性的；本发明并不限于所公开的实施例。

所述装置可以通过使用可编程计算机和计算机软件产品来实现，所述计算机软件产品存储在记录介质上并且包含一组指令，当计算机执行该组指令时，该组指令使得计算机能够实施所公开的方法。然而，由于每个操作的高度并行性以及视频处理特别地要求的高通量，本领域技术人员可以有利地将系统实现到诸如FPGA（现场可编程门阵列）之类的特定硬件部件中或者通过使用某个特定的数字信号处理器实现。

本领域技术人员在实施要求保护的本发明时，根据对于所述附图、本公开内容以及所附权利要求书的研究，应当能够理解并实施所公开实施例的其他变型。在权利要求书中，措词“包括/包含”并没有排除其他的元件，并且不定冠词“一”并没有排除复数。

Claims

1. 一种从构成镜头的帧序列中提取关键帧的方法，每帧由像素矩阵构成，所述方法包括：

· 对于所述帧序列的每帧：

· 将所述帧与后续帧相比的光流计算（3）为从所述帧到后续帧的每个像素的位移的矩阵；

· 基于所述帧的光流计算（5）运动熵度量；

· 将所述帧序列的具有最大运动熵度量的帧选择（7）为关键帧。

2. 依照权利要求1的方法，其中每个像素的位移被定义为具有模和位移角的矢量，运动直方图由代表模和位移角的组合的预定数量的面元定义。

3. 依照权利要求2的方法，其中丢弃具有最高频率的面元。

4. 依照权利要求2或3的方法，其中运动熵度量为每个面元的运动熵度量的总和，一个面元的运动熵度量与所述面元在运动直方图中的出现频率成比例。

5. 依照权利要求4的方法，其中面元熵度量由所述面元出现的对数频率的绝对值加权。

6. 依照权利要求2或3的方法，其中将每帧的运动直方图与另一帧的运动直方图进行比较以便将所述帧的所述运动熵度量定义为相似性度量。

7. 依照权利要求1的方法，其中通过在具有预定长度的帧的滑动窗中选择所述帧序列的具有最大运动熵度量的帧而提取多个关键帧。

8. 依照权利要求7的方法，其中每个像素的位移定义为具有模和位移角的矢量，并且运动直方图由代表模和位移角的组合的预定数量的面元定义，运动熵度量为每个面元的运动熵度量的总和，一个面元的运动熵度量与所述面元在运动直方图中出现的频率成比例，并且

所述方法进一步包括对于每个选择的帧，与其相邻帧的运动直方图进行比较，并且由比较的结果对每个选择的帧的运动熵度量进行加权。

9. 计算机软件产品，存储在记录介质上并且包括一组指令，当计算机执行该组指令时，其使得计算机能够实施依照权利要求1的方法。

10. 用于从构成镜头的帧序列中提取关键帧的装置，每帧由像素矩阵构成，所述装置包括：

· 帧光流计算器（20），其用于将所述帧序列的每帧与后续帧相比的光流计算为从所述帧到后续帧的每个像素的位移的矩阵；

· 运动熵度量计算器（22），其基于帧光流计算器的输出；

· 关键帧选择器（24），其用于选择所述帧序列的具有最大运动熵度量的帧。