CN101420594A

CN101420594A - 将视频图像划分为构成区域的设备和方法

Info

Publication number: CN101420594A
Application number: CNA2007101653081A
Authority: CN
Inventors: 王海涛; 金培亭; 李性德
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2007-10-26
Filing date: 2007-10-26
Publication date: 2009-04-29

Abstract

提供一种将视频图像根据具体场景划分为不同区域的设备，所述设备包括：特征点检测器，用于在第一帧视频图像中检测特征点；特征点跟踪器，用于在后续帧中跟踪检测到的特征点；以及特征点聚类器，用于创建各个特征点的时空特征向量，对创建的时空特征向量进行聚类，得到与各个分类相应的构成区域。

Description

将视频图像划分为构成区域的设备和方法

技术领域

本发明涉及一种视频图像处理，尤其涉及一种将视频图像根据具体场景划分为不同区域的设备和方法，通过所述设备和方法，视频图像可被细分为有助于进行图像监控和处理的几个区域。

背景技术

随着信号处理技术的发展，已经研发出涉及图像领域的各种应用。对于成像技术而言，图像的实时测试结果是指示图像质量的重要标志，也是进一步处理图像的主要依据。然而，在传统的图像质量测试技术中，如图1中的(a)所示，通常基于均匀分布的区域或点来进行测量，而不考虑视频或图像的具体组成部分，这使得测试效果受到限制。

目前，现有技术中主要存在以下几个方面的问题：

(1)利用额外的硬件(诸如用于3D深度感觉的立体视觉部件)进行图像监测，这会增加整个系统的成本和复杂性；

(2)使用固定摄像头拍摄的图像序列进行背景估计，通过背景与输入图像之间的差对图像进行划分，这种方式很难在处理能力和资源受限的移动平台(诸如移动通信终端、PDA)中实现稳定的估计结果；以及

(3)利用光流(optical flow)获得图像中的对象信息，该方法仍然受限于进行前景/背景估计，并且光流信息本身的鲁棒性不足以实现实时应用。

可见，大多数现有图像监测技术均以前景/背景估计为基础。然而，在很多情况下，如图2所示，图像中并不存在明确的前景与背景之间的边界。

因此，需要一种能够将视频图像划根据具体场景划分为不同区域的方法和设备，通过该方法和设备，可以在较少资源和较低处理能力的情况下，如图1中的(b)所示将图像细分为对于图像监控和处理更加有意义的区域，从而可基于各个区域进行自动聚焦、自动白平衡以及自动增益控制以及其它涉及三维(3D)的图像处理。

发明内容

在下面的描述中将部分地阐明本发明另外的方面和/或优点，通过描述，其会变得更加清楚，或者通过实施本发明可以了解。

本发明的目的在于提供一种从将视频图像根据具体场景划分为不同区域的设备和方法，通过所述设备和方法，视频图像可被细分为有助于进行图像监控和处理的构成区域。

根据本发明的一方面，提供一种将视频图像根据具体场景划分为不同区域的方法，所述方法包括步骤：(1)在第一帧视频图像中检测特征点；(2)在后续帧中跟踪检测到的特征点；以及(3)创建各个特征点的时空特征向量，对创建的时空特征向量进行聚类，得到与各个分类相应的构成区域。

根据本发明的另一方面，提供一种将视频图像根据具体场景划分为不同区域的设备，所述设备包括：特征点检测器，用于在第一帧视频图像中检测特征点；特征点跟踪器，用于在后续帧中跟踪检测到的特征点；以及特征点聚类器，用于创建各个特征点的时空特征向量，对创建的时空特征向量进行聚类，得到与各个分类相应的构成区域。

附图说明

通过下面结合附图进行的对实施例的描述，本发明的上述和/或其它目的和优点将会变得更加清楚，其中：

图1示出分别根据现有技术和本发明的视频图像划分的示例，图(a)为传统模式视频图像，图(b)为本发明视频图像；

图2示出典型的视频图像场景；

图3是示出根据本发明实施例的图像划分设备的框图；

图4是示出根据本发明实施例的图像划分方法的流程图；

图5示出由图3所示的特征点聚类器进行聚类处理的流程图；以及

图6和图7分别示出根据本发明实施例将视频图像划分为构成区域的示例。

具体实施方式

现将详细参照本发明的实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本发明。

图3是示出根据本发明实施例的图像划分设备的框图。图3所示的图像划分设备包括：特征点检测器10，用于检测第一帧图像中的特征点；特征点跟踪器20，用于在后续帧中跟踪由特征点检测器10检测到的特征点；特征点聚类器30，用于创建由特征点跟踪器20跟踪的各个特征点的时空特征向量，对创建的时空特征向量进行聚类，得到与各个分类相应的构成区域。可选地，所述图像划分设备还包括：区域排序单元40，用于根据每个区域中各个特征点的平均运动向量将各个区域排序，输出排列后的区域序列。

图4是示出根据本发明实施例的图像划分方法的流程图。以下，将参照图3所示的图像划分设备来说明根据本发明实施例的图像划分方法。

在步骤S100，特征点检测器10确定输入的视频图像是否是第一帧图像。如果输入的视频图像是第一帧图像，则特征点检测器10进行到步骤S105，以检测所述第一帧图像中的特征点。这里，特征点是指图像中的角点，在该实施例中，可使用任何已知的角点检测方法来检测角点。作为示例，关于角点检测方法的细节可参考Chris Harris，Mike stephens的“A Combined Cornerand Edge Detector”，4^th Alvey Vision Conference，1988，pp 147-151以及JianboShi和Carlo Tomasi的“Good features to track”，Proc.IEEE Comput.Soc.Conf.Comput.Vision and Pattern Recogn，pp 593-600，1994。或者，可使用David G.Lowe在Distinctive Image Features from Scale-Invariant Keypoints，InternationalJourney of Computer Vision，60(2)，2004，pp 91-110中介绍的尺度不变量特征变换(SIFT)算法来检测特征点。

在特征点检测器10检测到第一帧图像的特征点之后，在步骤S200，特征点跟踪器20在第一帧图像之后的后续帧中跟踪由特征点检测器10检测到的特征点。优选地，在跟踪所述特征点的过程中，特征点跟踪器20可去除特征点中的错误点(outlier)。作为示例，所述特征点跟踪器20可使用Jean-YvesBouguet在Pyramidal Implementation of the Lucas Kanade Feature Tracker中描述的光流KLT方法来跟踪特征点，并使用A.Adam，E.Rivlin和I.Shimshoni在“ROR：Rejection of Outliers by Rotations”，IEEE Trans.on Pattern Analysisand Machine Intelligence(PAMI)，23(1)pp 78-84，2001中描述的ROR方法来去除跟踪的特征点中的错误点。应注意：上述方法仅仅是示例性的，任何特征点跟踪方法和错误点去除方法可适用于本发明的实施例中。

在步骤S300，特征点聚类器30对由特征点跟踪器20跟踪的特征点进行聚类。以下，将参照图5来详细描述由特征点聚类器30进行聚类处理的过程。在步骤S310，特征点聚类器30创建当前帧中的每个特征点在之前M帧期间的运动向量，即，M帧运动向量。例如，用

来表示当前时刻(即，第k帧)中的第i个特征点，其中，i＝1，2，...，N(N表示当前帧中特征点的数量)。特征点聚类器30通过下面的等式(1)来计算特征点的M帧运动向量

D_{i}^{k} = {P_{i, x}^{k} - P_{i, x}^{k - 1}, P_{i, y}^{k} - P_{i, y}^{k - 1}, P_{i, x}^{k - 1} - P_{i, x}^{k - 2}, P_{i, y}^{k - 1} - P_{i, y}^{k - 2}, . . ., P_{i, x}^{k - M + 1} - P_{i, x}^{k - M}, P_{i, y}^{k - M + 1} - P_{i, y}^{k - M}} - - - (1)

其中，

表示当前时刻k的特征点

的x坐标值，

表示当前时刻的特征点

的y坐标值。

接着，在步骤S320，特征点聚类器30基于每一跟踪的特征点

在当前时刻k的位置(即，x坐标值

和y坐标值

)以及该特征点

的M帧运动向量

来创建该特征点的时空特征向量(spatial-time feature vector)。具体说来，特征点聚类器30基于下面的等式(2)来创建特征点

的时空特征向量

F_{i}^{k} = {D_{i}^{k}, x_{i}^{k}, y_{i}^{k}}

(2)，其中，i＝1，2，...，N(N表示当前帧中特征点的数量)。

在创建当前帧中的每一特征点

的时空特征向量

之后，特征点聚类器30根据现有技术中的聚类方法对各个特征点的时空特征向量进行聚类。作为示例，特征点聚类器30可使用K.Fukanaga.在“Statistical Pattern Recognition”，Clustering Academic Press.Chap.11，pp 508-512(1990)中讨论的K-Mean方法针对各个特征点的时空特征向量进行聚类。上述方法仅仅是示例性的，本发明实施例中针对时空特征向量使用的聚类方法并不受限于此。在该实施例中，特征点聚类器30在步骤S330确定用户是否定义了分类数量U。如果确定用户预先定义了分类数量U，则特征点聚类器30在步骤S340使用K-Mean方法将各个特征点的时空特征向量聚类为U个分类。否则，特征点聚类器30在步骤S350使用K-Mean方法将各个特征点的时空特征向量聚类为默认的T个分类，其中，T是大于等于2的正整数。这里，用户可根据图像应用的具体要求来设置分类数量U的值。

在特征点聚类器30如上所述将特征点聚类为U或N个分类之后，可得到与各个分类相应的构成区域。作为示例，可按照如下方式来确定区域：将每个分类的中心作为视频图像的构成区域的中心，根据图像的具体应用来变化地设置区域的大小。

可选地，在步骤S400，区域排序单元40根据每个分类中的各个特征点的平均运动向量将与所述分类相应的各个区域排序，输出排列后的区域序列。首先，作为示例，区域排序单元40可根据下面的等式3来计算每个分类中的各个特征点的平均运动向量G_t：

G_{t} = \frac{1}{M_{t}} Σ_{i = 1}^{M_{t}} | | D_{i}^{k} | |

(3)，其中，t＝1，2，...，U(T)，M_t表示第t个分类中特征点的数量。

在计算出每个分类中的各个特征点的平均运动向量G_t之后，区域排序单元40可将与各个分类相应的区域基于G_t进行降幂排列，并在步骤S500输出该降幂排列的区域序列。通过所述区域序列，可更加有效地分析图像中的各个构成区域的特征。

图6和图7分别示出根据本发明实施例将视频图像根据具体场景划分为不同区域的示例。在图6中示出的视频图像分别被划分为3、4和5个构成区域，也就是说，视频图像中的特征点分别被聚类为3、4和5个分类。在图7中示出与排序后的分类相应的各个区域。

根据本发明的上述实施例，基于图像中各个特征点的时空特征向量，视频图像被划分为指示构成图像的各个对象的构成区域，而不是被均匀划分或按照前景/背景划分。因此，产生对于图像质量测量、自动聚焦、自动白平衡、自动增益控制以及其它涉及三维(3D)的图像处理而言更有意义的图像划分区域。此外，本发明可以在不需要额外硬件的情况下，在现有的移动平台的资源条件下完全实现，从而节约了产品成本，并可在各种应用中得以实施。

尽管已经示出并描述了本发明的一些实施例，但是本领域的技术人员应认识到：在不脱离本发明的原理和精神的情况下，可对这些实施例进行改变，其中，本发明的范围在权利要求及其等同物中限定。例如，图3所示的各个部件中提供的功能可被集成为单一的部件，或者被进一步划分为更多的部件。