CN1909677B

CN1909677B - 图像表示和分析方法

Info

Publication number: CN1909677B
Application number: CN2005101053632A
Authority: CN
Inventors: 斯塔夫罗斯·帕斯卡勒基斯; 米罗斯瓦夫·博贝尔
Original assignee: Mitsubishi Electric Corp
Current assignee: Lotte Group Co.,Ltd.
Priority date: 2004-09-23
Filing date: 2005-09-23
Publication date: 2011-07-06
Anticipated expiration: 2025-09-23
Also published as: US8320664B2; JP2006135938A; US20110038532A1; JP5117670B2; CN1909677A; US20060093215A1; US7840081B2

Abstract

图像表示和分析方法。用于表示至少一幅图像的方法，其包括以下步骤：根据针对图像的至少一个区域的色彩信息和色彩互相关信息，导出至少一个描述符，该描述符具有至少一个描述符元素，是使用该区域中的像素值导出的，其中，使用非小波变换导出针对区域的至少一个描述符元素。该表示可以用于图像比较。

Description

图像表示和分析方法

技术领域

本发明涉及用于表示图像或图像组的方法和装置，以及用于例如为检测图像序列中的不连续性而进行图像比较或用于图像检索的方法和装置。

背景技术

在Lienhart，R.，“Comparison of Automatic Shot Boundary DetectionAlgorithms”，In Proceedings of Image and Video Processing VII 1999，Proc.SPIE 3656-29，pp.290-301，Jan.1999中，提出了一种用于检测视频序列中的拍摄转场(shot transition)的方法。针对序列中的每个帧，创建RGB色空间中的3维直方图。然后将序列中的多个连续帧的差异计算为它们相应的直方图之间的差异、计算为绝对二元(bin-wise)差异的总和。然后通过搜索预定固定阈值以上的距离来识别拍摄转场。因此，该方法仅根据空间非敏感的色彩内容信息来检测拍摄转场。因此，该方法未利用存在于空间排列和色彩互相关(interrelation)中的信息资源。

在Zabih，R.，Miller，J.，Mai，K.，“A Feature-Based Algorithm forDetecting and Classifying Scene Breaks”，In Proceedings of 1995 3rd ACMInternational Conference on Multimedia，San Francisco，CA USA，pp.189-200，1995中，提出了一种用于检测视频序列中的拍摄转场的不同方法。针对序列中的每个帧，计算出边沿图。然后根据存在于第一帧中而不存在于第二帧中的边沿的数量以及存在于第二帧中而不存在于第一帧中的边沿的数量，来计算序列中多个连续帧之间的差异。然后，该差异测度的时间序列中的峰点(sharp peak)表示拍摄转场的存在性。因此，该方法仅根据边沿信息(其为一种类型的空间互相关信息)检测拍摄转场。尽管其原理是正确的，但是该方法未利用存在于帧的色彩内容中的信息资源。此外，边沿图创建过程很耗计算机时并且意味着仅揭示帧内最强的色彩不连续性。此外，该方法对运动相当敏感。因此，作者建议使用图象配准技术来抵消该缺点，但是这种处理很耗计算机时。

在Dailianas，A.，Allen，R.B.，England，P.，“Comparison of AutomaticVideo Segmentation Algorithms”，SPIE Integration Issues in LargeCommercial Media Delivery Systems，vol.2615，pp.2-16，Oct.1995中，提出了用于检测视频序列中的拍摄转场的另一方法。将序列中的多个连续帧之间的差异计算为绝对像素方面(pixel-wise)差异的总和。然后通过搜索预定固定阈值以上的距离来识别拍摄转场。因此，该方法仅根据空间敏感的色彩内容信息来检测拍摄转场。尽管其原理是正确的，但是该方法未利用存在于色彩的空间互相关中的信息资源。此外，对视频结果的这种简单处理导致对噪声和运动高度敏感性。一种运动补偿算法可以解决该运动敏感性问题，但是这种处理很耗计算机时。

在Xiong，W.，“Shot Boundary Detection”，US 2003/0091235 A1，published 15 May，2003中，提出了一种基于不同类型信息的组合检测拍摄转场的方法。该方法包括计算两个帧之间的块基(block-based)差异，如果该块基差异超过固定阈值，则表明是候选拍摄转场。在此情况下，通过规定这两个帧之间的色彩和/或边沿差异也超过预定阈值，验证拍摄转场。为了对块基差异进行计算，将帧划分成多个块并计算块平均。然后，对相应块之间的差异进行阈值比较以确定两个块是相似的还是不同的，并对两个帧之间的不同块的数量进行阈值比较以确定两个帧是相似的还是不同的。色差是绝对二元差异的总和，而边沿差异利用边沿直方图，以捕获边沿幅度和方向信息。

在Nakajima，Y，Sugano，M.，Yanagihara，H.，for KDDICORPORATION(JP)，“Picture Searching Apparatus”，US 2004/0091044A1，published 13 May，2004中，提出了一种用于检测拍摄转场的方法，其基于以下信息：(a)图像之间的相关性，(b)子采样图像之间的相关性，(c)图像之间的运动，以及(d)子采样图像之间的运动。其中，将图像之间和子采样图像之间的相关性测量为像素向差异或直方图差异，并且根据各种运动矢量差测量图像之间和子采样图像之间的运动。

在Jafarkhani，H.，Shahraray，B.，for AT&T CORP.(US)，“Method forAnalyzing Video”，US 6,542,619 B1，granted 1 April，2003中，提出了一种拍摄转场检测方法，其包括以下步骤：创建视频帧的两个一维投影，即行和列投影；对每个投影执行小波变换并只保留高频分量(即，小波系数)；以及对每次变换的高频分量进行自相关。对于一系列视频帧，当所得自相关系数时间曲线显示出预定最高值时，表示拍摄转场。因此，该方法使用了由小波变换提供的空间敏感色彩内容和互相关信息，但是该信息不是关于帧的而是关于帧投影的，导致很大的信息损失。

在Jacobs，C.E.，Finkelstein，A.，Salesin，D.H.，“Fast MultiresolutionImage Querying”，In Proceedings of 1995 ACM SIGGRAPH Conference，Los Angeles CA，USA，Aug.9-11，pp.277-286，1995中，提出了一种用于检索与给定图像相似的图像的方法。根据该方法，最初通过图像的Haar小波分解来表示图像。然后，截取该分解，即，仅保留标度函数系数(平均强度)和很少数量的最大幅度小波系数。然后，对截取的分解进行量化，即，仅保留小波系数的符号。由此，形成了表征图像的单个图像描述符以用于图像检索。

在Zhuang，Z.-Y.，Hsu，C.-T.，Chen，H.-Y.，Ouhyoung，M.，Wu，J.-L.，″Efficient Multiresolution Scene Change detection by WaveletTransformation″，In Proceedings of 1997 IEEE International Conference onConsumer Electronics ICCE ′97，Taipei，Taiwan，Jun.11-13，pp.250-251，1997中，提出了一种用于检测拍摄转场的方法，其按与在Jacobs，C.E.，Finkelstein，A.，Salesin，D.H.，“Fast Multiresolution Image Querying”，InProceedings of 1995 ACM SIGGRAPH Conference，Los Angeles CA，USA，Aug.9-11，pp.277-286，1995中所描述的相同方式对视频帧进行表征。Jacobs，C.E.，Finkelstein，A.，Salesin，D.H.，“Fast Multiresolution ImageQuerying”，In Proceedings of 1995 ACM SIGGRAPH Conference，LosAngeles CA，USA，Aug.9-11，pp.277-286，1995的方法与Zhuang，Z.-Y.，Hsu，C.-T.，Chen，H.-Y.，Ouhyoung，M.，Wu，J.-L.，″Efficient MultiresolutionScene Change detection by Wavelet Transformation″，In Proceedings of 1997IEEE International Conference on Consumer Electronics ICCE ′97，Taipei，Taiwan，Jun.11-13，pp.250-251，1997的方法之间的差别在于，根据Zhuang，Z.-Y.，Hsu，C.-T.，Chen，H.-Y.，Ouhyoung，M.，Wu，J.-L.，″EfficientMultiresolution Scene Change detection by Wavelet Transformation″，InProceedings of 1997 IEEE International Conference on ConsumerElectronics ICCE ′97，Taipei，Taiwan，Jun.11-13，pp.250-251，1997的方法，舍弃帧的周边并将帧缩减到只剩它们的中央部分。这种方法会引起很大的信息损失，并且当在视频中存在显著运动时会导致假视频分割和/或很大的过分割。

Jacobs，C.E.，Finkelstein，A.，Salesin，D.H.，“Fast MultiresolutionImage Querying”，In Proceedings of 1995 ACM SIGGRAPH Conference，LosAngeles CA，USA，Aug.9-11，pp.277-286，1995和Zhuang，Z.-Y.，Hsu，C.-T.，Chen，H.-Y.，Ouhyoung，M.，Wu，J.-L.，″Efficient Multiresolution SceneChange detection by Wavelet Transformation″，In Proceedings of 1997 IEEEInternational Conference on Consumer Electronics ICCE ′97，Taipei，Taiwan，Jun.11-13，pp.250-251，1997的这两种方法共有的缺陷是这样的假设，即，通过只保留很少数量的最大幅度系数可以有效地截取小波分解。为了阐述这一点，从128×128像素开始到2×2的图像平面的多尺度Haar小波分解将产生16383个系数。为了进行图像检索或视频处理，这种特征矢量可能对于快速和高效实现来说实在太大了。然而，如本领域的技术人员所了解的，根据幅度(例如，如上述作者所建议的40或60个最大幅度系数，这是一种机械的方式)将该矢量截取为很小数量的系数或减小其维数，会得到这样的描述符(其给出了图像的空间非均匀表示)，即，其极易受噪声影响，而且极易受视频分割的高视频运动和内摄照明效应的影响，存在一些问题。通过只保留符号对所截取序列进行量化会放大该问题。

Jacobs，C.E.，Finkelstein，A.，Salesin，D.H.，“Fast MultiresolutionImage Querying”，In Proceedings of 1995 ACM SIGGRAPH Conference，LosAngeles CA，USA，Aug.9-11，pp.277-286，1995和Zhuang，Z.-Y.，Hsu，C.-T.，Chen，H.-Y.，Ouhyoung，M.，Wu，J.-L.，″Efficient Multiresolution SceneChange detection by Wavelet Transformation″，In Proceedings of 1997 IEEEInternational Conference on Consumer Electronics ICCE ′97，Taipei，Taiwan，Jun.11-13，pp.250-251，1997的方法的另一缺点在于，由于根据图像区域内的所有像素值计算该区域的系数的事实，所以对Haar分解的计算导致计算量的增加。

这里，我们提出了用于评估图像之间的相似性的方法，以例如从与给定图像相似的一组图像检索出图像或者检测出数字视频中的帧不连续性(如拍摄转场或照明和其他效应)。这些方法依赖于以下操作：对这样的图像描述符的提取，即，其在一个或更多个图像尺度下并且在一个或更多个图像通道上捕获空间敏感色彩内容和互相关信息。这些方法的一个特征在于，与前述方法不同，可以这样提取描述符，即，使得它们均匀地在图像平面上并在多个尺度下捕获空间敏感色彩内容和互相关信息，但是具有与前述Haar分解相比减小的尺寸，由此减小对人工截取过程的需要。这些方法的另一特征在于，与前述方法不同，可以这样提取描述符，即，使得它们允许对原始图像进行完全重构，但是与具有与前述Haar分解相比减小的计算负荷。

发明内容

鉴于以上问题，本发明的一个目的是提供一种用于评估图像间的相似性的改进方法，例如，其用于从一组图像检索出与给定图像相似的图像，或用于检测数字视频中的帧不连续性，如拍摄转场或照明或其他效果。

针对视频分割，所提出的方法允许对未压缩的和MPEG压缩的数字视频帧进行表示。对于后者，不进行压缩就可以表示I帧。

在所附权利要求中陈述了本发明的多个方面。

一实施例的特征包括：

(i)提取这样的图像描述符，即，其在一个或更多个图像尺度下并且在一个或更多个图像通道上捕获空间色彩内容和互相关信息，该至少一个特定尺度特定通道图像表示的描述符的特征在于：

仅使用相应区域中的像素子集来计算至少一个描述符元素类型的所有区域描述符元素；

并且/或者

用于计算所有描述符类型的所有区域描述符元素的像素仅为其相应区域的像素的子集；

并且/或者

描述符元素的总数比所述表示的像素数量要少，所述特性是描述符提取过程所固有的而不取决于对描述符的任何后处理，例如截取；

(ii)将所述描述符组合成单个多尺度多通道描述符；以及

(iii)将所得描述符用于评估图像之间的相似性。

附图说明

下面参照附图概述本发明的具体实施例，附图中：

图1示出了根据本发明一实施例的针对Y通道的块平均再采样过程；

图2A-2D示出了在本发明一个实施例中对尺度描述符进行的计算；

图3A-3D示出了根据本发明另一实施例对尺度描述符进行的计算；

图4是根据本发明一实施例的用于对多幅图像进行比较的流程图；

图5是适于实现本发明实施例的处理设备的示意图。

具体实施方式

本发明第一实施例涉及描述符提取过程。

考虑数字图像F_i(x，y)，其中(x，y)表示空间坐标，x＝0…M-1并且y＝0…N-1。在本发明一个实施例中，在色彩空间YC_bC_r中表示F_i，但是这并非限制性的，本发明实施例可以适用任何数量个通道的任何色彩空间。在本发明一个实施例中，Fi的空间分辨率是720×576个像素，即，M＝720并且N＝576，但是这并非限制性的，本发明实施例可以适用任何空间分辨率。在本发明一个实施例中，把要提取描述符所用最高分辨率选择为64×64个像素，但是这并非限制性的，本发明实施例可以适用其他分辨率。因此，对F_i进行再采样以得到64×64像素图像F_i(64×64)。在本发明一个实施例中，该再采样过程是如图1所示的简单块平均过程，但是对再采样机制的选择也并非限制性的。更具体来说，图1示出了针对Y通道的块平均再采样过程，但是这并非限制性的，而是可以将该过程用于任何色彩空间的任何通道。在本发明另一实施例中，要提取描述符所用的最高尺度与Fi的分辨率相一致并且最初不必进行再采样。

图2示出了在本发明一个实施例中对该尺度的描述符进行的计算。更具体来说，图2示出了对Y通道的描述符的计算，但是这并非限制性的，而是可以将类似方法应用于所有色彩通道。在图2A中，将2×2窗口应用于图像的左上角。该窗口指定了局部邻域。对于该邻域中的像素F^Y _i(64×64)(0，0)、F^Y _i(64×64)(1，0)、F^Y _i(64×64)(0，1)以及F^Y _i(64×64)(1，1)，可将描述符元素χ1到χ4计算为：

χ₁＝(F^Y _i(64×64)(0，0)+F^Y _i(64×64)(1，0)+F^Y _i(64×64)(0，1)+F^Y _i(64×64)(1，1))/4 (1)

χ₂＝(F^Y _i(64×64)(0，0)-F^Y _i(64×64)(1，0))/2 (2)

χ₃＝(F^Y _i(64×64)(0，0)-F^Y _i(64×64)(0，1))/2 (3)

χ₄＝(F^Y _i(64×64)(0，0)-F^Y _i(64×64)(1，1))/2 (4)

在上述公式中，χ₁捕获色彩内容信息，而χ₂、χ₃以及χ₄捕获色彩互相关信息。

以V^Y _i(64×64)表示F^Y _i(64×64)的描述符，可以如下将这些值写入描述符中：

V^Y _i(64×64)(1)＝χ₁，V^Y _i(64×64)(2)＝χ₂，V^Y _i(64×64)(3)＝χ₃，V^Y _i(64×64)(4)＝χ4 (5)

接下来，如图2B所示，将所述2×2窗口向右滑动2个像素以形成包括像素F^Y _i(64×64)(2，0)、F^Y _i(64×64)(3，0)、F^Y _i(64×64)(2，1)以及F^Y _i(64×64)(3，1)的新邻域。针对新像素值再计算描述符元素χ1到χ4，然后把它们存储在描述符位置V^Y _i(64×64)(5)到V^Y _i(64×64)(8)中。如图2C和2D所示，一旦完成了对一组行的所有计算，则滑动窗口向下移动两个像素并再从左向右滑动，直到处理完整幅图像为止。这完成了对描述符V^Y _i(64×64)的计算，该描述符V^Y _i(64×64)在64×64像素的尺度下针对Y平面捕获图像空间敏感色彩内容和互相关。

这里所概述的发明包括计算捕获空间敏感色彩内容和互相关信息的描述符。

本发明另一实施例将描述符元素χ₁到χ₄替换成如下所述获得的描述符元素Ψ₁和Ψ₂：

Ψ₁＝(F^Y _i(64×64)(0，0)+F^Y _i(64×64)(1，0)+F^Y _i(64×64)(0，1)+F^Y _i(64×64)(1，1))/4 (I)

Ψ₂＝max(F^Y _i(64×64)(0，0)，F^Y _i(64×64)(1，0)，F^Y _i(64×64)(0，1)，F^Y _i(64×64)(1，1))-min(F^Y _i(64×64)(0，0)，F^Y _i(64×64)(1，0)，F^Y _i(64×64)(0，1)，F^Y _i(64×64)(1，1)) (II)

在以上公式(I)和(II)中，Ψ1捕获色彩内容信息，而Ψ2捕获色彩互相关信息。描述符元素的数量比用于导出这些描述符元素的像素数量要少。

本发明再一实施例将描述符元素χ₁到χ₄替换成如下所述获得的描述符元素φ₁到φ₄：

φ₁＝(F^Y _i(64×64)(0，0)+F^Y _i(64×64)(1，0)+F^Y _i(64×64)(0，1)+F^Y _i(64×64)(1，1))/4 (III)

φ₂＝(F^Y _i(64×64)(0，0)-F^Y _i(64×64)(1，0))/2 (IV)

φ₃＝(F^Y _i(64×64)(0，0)-F^Y _i(64×64)(1，1))/2 (V)

φ₄＝(F^Y _i(64×64)(0，0)-F^Y _i(64×64)(0，1))/2 (VI)

在以上公式(III)-(VI)中，φ₁捕获色彩内容信息，而φ₂-φ₄捕获色彩互相关信息。

在本发明另一实施例中，根据图3所述的方案提取描述符元素。在图3A中，将4×4窗口应用于图像的左上角。该窗口指定了包括16个像素的局部邻域。对于该邻域中的像素，计算以下描述符元素：

Ψ₁＝(F^Y _i(64×64)(0，0)+F^Y _i(64×64)(1，0)+F^Y _i(64×64)(2，0)+F^Y _i(64×64)(3，0)+F^Y _i(64×64)(0，1)+F^Y _i(64×64)(1，1)+F^Y _i(64×64)(2，1)+F^Y _i(64×64)(3，1)+F^Y _i(64×64)(0，2)+F^Y _i(64×64)(1，2)+F^Y _i(64×64)(2，2)+F^Y _i(64×64)(3，2)+F^Y _i(64×64)(0，3)+F^Y _i(64×64)(1，3)+F^Y _i(64×64)(2，3)+F^Y _i(64×64)(3，3))/16 (6)

Ψ₂＝(F^Y _i(64×64)(0，0)+F^Y _i(64×64)(1，0)+F^Y _i(64×64)(2，0)+F^Y _i(64×64)(3，0)-F^Y _i(64×64)(0，1)-F^Y _i(64×64)(1，1)-F^Y _i(64×64)(2，1)-F^Y _i(64×64)(3，1)-F^Y _i(64×64)(0，2)-F^Y _i(64×64)(1，2)-F^Y _i(64×64)(2，2)-F^Y _i(64×64)(3，2)+F^Y _i(64×64)(0，3)+F^Y _i(64×64)(1，3)+F^Y _i(64×64)(2，3)+F^Y _i(64×64)(3，3))/16 (7)

Ψ₃＝(F^Y _i(64×64)(0，0)-F^Y _i(64×64)(1，0)-F^Y _i(64×64)(2，0)+F^Y _i(64×64)(3，0)+F^Y _i(64×64)(0，1)-F^Y _i(64×64)(1，1)-F^Y _i(64×64)(2，1)+F^Y _i(64×64)(3，1)+F^Y _i(64×64)(0，2)-F^Y _i(64×64)(1，2)-F^Y _i(64×64)(2，2)+F^Y _i(64×64)(3，2)+F^Y _i(64×64)(0，3)-F^Y _i(64×64)(1，3)-F^Y _i(64×64)(2，3)+F^Y _i(64×64)(3，3))/16 (8)

Ψ₄＝max(FY_i(64×64)(0，0)，FY_i(64×64)(1，0)，FY_i(64×64)(2，0)，FY_i(64×64)(3，0)，FY_i(64×64)(0，1)，FY_i(64×64)(1，1)，FY_i(64×64)(2，1)，FY_i(64×64)(3，1)，FY_i(64×64)(0，2)，FY_i(64×64)(1，2)，FY_i(64×64)(2，2)，FY_i(64×64)(3，2)，FY_i(64×64)(0，3)，FY_i(64×64)(1，3)，FY_i(64×64)(2，3)，FY_i(64×64)(3，3))-min(F^Y _i(64×64)(0，0)，F^Y _i(64×64)(1，0)，F^Y _i(64×64)(2，0)，F^Y _i(64×64)(3，0)，F^Y _i(64×64)(0，1)，F^Y _i(64×64)(1，1)，F^Y _i(64×64)(2，1)，F^Y _i(64×64)(3，1)，F^Y _i(64×64)(0，2)，F^Y _i(64×64)(1，2)，F^Y _i(64×64)(2，2)，F^Y _i(64×64)(3，2)，F^Y _i(64×64)(0，3)，F^Y _i(64×64)(1，3)，F^Y _i(64×64)(2，3)，F^Y _i(64×64)(3，3)) (9)

在以上公式中，Ψ₁捕获了色彩内容信息，Ψ₂、Ψ₃以及Ψ₄捕获了色彩互相关信息。本领域的技术人员将理解，可以对公式(6)-(9)进行修改以减少所需计算次数。

可以沿公式(5)的行把这些值写入描述符V^Y _i(64×64)中，然后，如图3B所示，将该4×4窗口向右滑动4个像素以形成新邻域，针对新像素值再计算描述符元素，依此类推。如图3C和3D所示，一旦完成了对一组行的所有计算，则滑动窗口向下移动两个像素并再从左向右滑动，直到处理完整幅图像为止。

在本发明另选实施例中，根据诸如中值、最大值、最小值等的邻域像素的函数计算色彩内容和/或互相关描述符元素。

此外，尽管以上描述考虑了2×2和4×4大小的像素的滑动邻域窗口，但是这并非限制性的。另选实施例可以指定邻域窗口的任何尺寸和/或几何形状和/或滑动步长，以例如适合于给定计算需求或邻域测量过程本身。

在以上描述中，在F^Y _i(64×64)的所有位置处使用相同的邻域窗口和描述符提取过程。在另选实现中不必如此。另选实施例可以在图像的不同位置处使用不同的邻域参数和/或描述符提取过程。例如，本发明一另选实施例在图像的周边使用快速描述符提取过程，而在图像的中央处使用较慢但是更强大的描述符提取过程。

接下来，将F^Y _i(64×64)再采样到新的较小尺度。在一个实施例中，该新尺度是32×32像素。然后，按与用于64×64图像的方式完全相同的方式计算新描述符V^Y _i(32×32)。注意，可能该再采样过程实际上不需要进行计算。如可从公式(1)看到的，先将新像素值计算为χ₁值并将其存储在V^Y _i(64×64)(1)、V^Y _i(64×64)(5)、V^Y _i(64×64)(9)...V^Y _i(64×64)(4093)。因此，在一个实施例中，计算出描述符V^Y _i(64×64)、V^Y _i(32×32)、V^Y _i(16×16)、V^Y _i(8×8)、V^Y _i(4×4)以及V^Y _i(2×2)。

这里所概述的本发明实施例包括按图像F_i的一个或更多个尺度提取描述符。因此，在以上描述中，最细或最大或最高的尺度、最粗或最小或最低的尺度、尺度数量和尺度间的关联仅代表了本发明一个可能的实施例，另选实施例可以使用不同的这种参数，以例如与系统的计算能力相匹配。

在本发明一个实施例中，在随后处理之前从这些特定尺度的描述符中去除某些元素。在本发明一个实施例中，对于公式(1)-(4)所概述的标识符提取过程，在2^b×2^b、2^b-1×2^b-1、2^b-2×2^b-2等尺度(例如，64×64、32×32、16×16等)上，除了在最低尺度下的χ₁元素以外，可以去除V^Y _i中的所有χ₁元素。这是因为根据在2^b-k-1×2^b-k-1尺度下的χ₁值和在2^b-k×2^b-k尺度下的χ₂、χ₃以及χ₄元素可以直接计算出在2^b-k×2^b-k尺度下的χ₁元素。注意，并非总是存在这个性质。例如，如果在2^b×2^b、2^b-2×2^b-2、2^b-4×2^b-4等尺度(例如，64×64、16×16、4×4等)下计算描述符，那么该性质无效。此外，如果只计算χ₁、χ₂、χ₃以及χ₄元素的一子集作为标识符提取过程的一部分，则该性质也无效。相同的性质适用于公式(III)-(VI)的变换。

把同样的描述符提取过程应用于F_i的C_b和C_r通道给出了描述符V^Cb _i(64×64)、...V^Cb _i(2×2)以及V^Cr _i(64×64)、...V^Cr _i(2×2)。所有这些特定尺度特定通道描述符都在多尺度下并在多个通道上捕获图像空间敏感色彩内容和互相关信息。

在以上描述中，假设F_i在YC_bC_r色彩空间中并且将所有通道用于对描述符的提取。另选实现可以在对描述符的计算之间在新色彩空间中表示该图像并且/或者在对其描述符的计算中仅使用色彩平面的一子集。

在以上描述中，在相同尺度下计算在F_i的不同色彩通道上的描述符。在另选实现中，不必如此。例如，本发明另选实施例在比C_b和/或C_r通道描述符更多的尺度并且/或者不同的尺度下计算Y通道描述符。这种细调将得到对特定图像或视频材料的更佳适应，并且可以改进性能。

在以上描述中，将相同的邻域窗口和描述符提取过程用于F_i的所有色彩通道。在另选实现中，不必如此。另选实施例可以针对各通道使用不同的邻域参数和/或描述符提取过程。例如，本发明一另选实施例针对C_b和C_r通道使用快速描述符提取过程而针对Y通道使用较慢但是更强大的描述符提取过程。这种细调将得到对特定图像或视频材料的更佳适应，并且可以改进系统性能。

在本发明一个实施例中，将一些或所有描述符元素表示成带有整数和小数部分的实数。在本发明另一实施例中，例如通过截去或舍入其小数部分把一些或所有描述符元素表示成整数形式。在本发明再一实施例中，通过比例换算把一些或所有描述符元素表示成整数形式。例如，公式(1)-(4)得到其中小数部分只有三个值的实数，即，.25、.50以及.75。将描述符元素χ₁乘以值4并将描述符元素χ₂、χ₃以及χ₄乘以2将得到没有任何信息损失的整数表示。在本发明再一实施例中，通过任何方法把一些或所有描述符元素表示成整数形式，然后把它们量化为较短(例如3或4位长的)值。

因此，在本发明一个实施例中，图像F_i由其描述符V^C1 _i(C1SCq)、...V^C1 _i(C1SC1)、V^C2 _i(C2SCq)、...V^C2 _i(C2SC1)、...V^Cp _i(CpSCq)、...V^Cp _i(CpSC1)来表示，其中，C1、C2、...Cp是F_i的第一、第二以及第p色彩通道，C1SCq是信道C1的最高描述符尺度，C1SC1是信道C1的最低描述符尺度，C2SCq是信道C2的最高描述符尺度，C2SC1是信道C2的最低描述符尺度，依此类推。所有这些特定尺度特定通道描述符都在多尺度(优选地，一个以上)下并在多个通道(优选地，一个以上)上捕获图像空间敏感色彩内容和互相关信息。

然后将这种描述符融合(即，连接)成单个描述符以用于随后的处理。图4示出了该过程。

在本实施例中，在步骤4100中，如前所述地提取特定尺度特定通道描述符。在步骤4250中，将这些描述符融合成多尺度多通道描述符V_i。在步骤4400中，将描述符V_i和V_j用于对图像F_i和F_j之间的相似性测度D_j，i的计算。在步骤4900中，将该相似性测度用于对两幅图像的相似性或不相似性进行的评估。

以下对该过程的各步骤进行更详细的考查。

在步骤4400中，可以把许多可选方法用于计算相似性测度。例如，在本发明一个实施例中，可以将由下式给出的两个描述符V_i与V_j(各有n个元素)之间的距离L1计算为相似性测度：

{L 1}_{j, i} = Σ_{l = 0}^{n} | V_{j} (l) - V_{i} (l) | - - - (10)

这里所概述的本发明包括把图像描述符用于计算图像之间的相似性测度(其包括至少两个值)。

用于计算描述符距离的公式(10)的L1距离只涉及本发明一个可能实现。一另选实现把公式(10)替换成以下公式(11)，该公式(11)计算L2距离：

{L 2}_{j, i} = \sqrt{Σ_{l = 0}^{n} {(| V_{j} (l) - V_{i} (l) |)}^{2}} - - - - (11)

在相关文献中存在很多种这样的距离度量。

此外，一另选实现把公式(10)替换成以下公式(12)，该公式(12)计算加权L1距离：

{L 1}_{j, i} = Σ_{l = 0}^{n} (w (l) \cdot | V_{j} (l) - V_{i} (l) |) - - - (12)

其中，w(l)是第l个描述符元素的加权系数。此外，也可以与公式(11)的距离L2或文献中提供的任何其他合适的距离量度一起使用这种加权。

有很多种用于处理相似性测度的可选方法。在本发明一个实施例中，在步骤4900中将一阈函数作用于相似性测度D_j，i。即，对于阈值thr，如果：

D_j，i≥thr (13)

则认为这两幅图像不相似并在步骤4900中作出判定“不相似”。否则，认为这两幅图像相似不得到判定“相似”。

这里所概述的本发明实施例包括使用所述相似性测度(其包括至少两个值)确定图像之间的相似性或不相似性。

以上概述的阈值方案在步骤4900中得到了二元判定，例如，“1”表示“相似”，“0”表示“不相似”。在本发明另一实施例中，步骤4900的判定不是二元的，而是包括至少三个值。在此情况下，术语“似然测度”比术语“判定”更适于描述处理步骤4900的结果。例如，在本发明一个实施例中，步骤4900使用三个阈值。如果相似性测度低于第一阈值，则生成表示“不相似”的相似性似然“0”。如果相似性测度高于第一阈值但是低于第二阈值(其高于第一阈值)，则生成表示“可能不相似”的相似性似然测度“1”。如果相似性测度高于第二阈值但是低于第三阈值(其高于第二阈值)，则生成表示“可能相似”的相似性似然测度“2”。如果相似性测度高于第三阈值，则生成表示“相似”的相似性似然测度“3”。在本发明再一实施例中，不通过阈值比较而通过对将相似性测度归一化到固定范围(例如，0与1之间)生成似然测度。

在本发明根据图4的优选实施例中，步骤4900生成二元判定或多值似然测度，其中，该似然测度可以是在归一化到固定范围(例如，0与1之间)之后在步骤4400中生成相似性测度。在本发明另选实施例中，根本不执行步骤4900，根据本发明的最终处理结果是由步骤4400生成的非归一化相似性测度。

在步骤4900中执行的相似性评估的语义取决于实现了本发明的应用。

在本发明一个实施例中，F_i和F_j是时间有序图像。例如，它们是视频F_z的帧，目的是查明是否在F_j与F_i之间存在帧不连续性，如拍摄转场或照明效果等。然后，在步骤4900处的判定是：F_j与F_i之间相似性测度是否表示这种帧不连续性。这种系统将用于分割视频。在这种应用中，步骤4900的优选输出是二元判定，使得可以进行视频分割。

在本发明另一实施例中，F_j和F_i是没有时间顺序的独立图像。例如，F_j是一组图像F_z的一幅图像而F_i是F_z内部或外部的另一幅图像，目的是找出F_z中的与F_i相似的那些图像。然后，步骤4900的判定是：F_j与F_i之间相似性测度是否表示图像是是相似的。这种系统将用于通过查询进行图像检索或用于在数据库中对图像进行分类。在这种应用中，步骤4900的优选输出是多值似然测度(优选地，被归一化到固定范围的相似性测度)而非二元判定，使得可以创建相似图像的排名表。

以上仅为本发明的两个可能应用。

在本发明一个实施例中，步骤4400的描述符V_i和V_j中的一个或两个不表示图像而表示图像组。

例如，在本发明一个实施例中，V_j是图像F_j1、F_j2、...F_jg(它们形成了图像族F_j)的描述符V_j1、V_j2、...V_jg的函数(如平均或中值)。例如，F_j可以是表示汽车的图像族。对于图像F_i，那么确定描述符V_i与V_j之间的相似性不是揭示F_i是否与特定图像相似，而是揭示其是否与特定图像类或图像族相似。一组图像F_z可以包括任何数量个这种族，并且这种处理将揭示给定图像与哪个特定族最相配。此外，不仅可以由V_j表示族，而且可以通过其他统计量(如其图像描述符的协方差阵)表示族，该统计量使得可以在步骤4400中计算更复杂的相似性测度，如Mahalanobis距离或最大似然测度。

在本发明的用于分割视频的另一实施例中，V_j是帧F_j1、F_j2、...F_jg的描述符V_j1、V_j2、...V_jg的函数(如平均或中值)。这些帧可能全都在帧F_i之前，或者可能全都在其之后，或者一些在其之前而一些在其之后。

因此，在本发明的用于分割视频的前述多个实施例中，在步骤4900中，把两个帧F_i与F_j之间的相似性测度用于检测帧不连续性。本发明一另选实施例不仅使用该相似性测度而且使用帧F_i和F_j附近的多个帧之间的相似性测度。

例如，在本发明一个实施例中，j＝i-1，并且对帧不连续性的检测依赖于相似性测度D_i+k-1，i+k，k∈[-t₁，t₂]。在一优选实施例中，t1＝t2＝t。因此，帧F_i+k形成了以帧F_i为中心的时间窗口。然后，当且仅当以下两式成立时检测到F_i-1与F_i之间的帧不连续性：

D_i-1，i≥D_i+k-1，i+k

k∈[-t，t]，k≠0并且 (14)

\frac{D_{i - 1, i}}{D_{i + p - 1, i + p}} &GreaterEqual; thr

其中D_i+p-1，i+p≥D_i+k-1，i+k k，p∈[-t，t]，k，p≠0 (15)

根据公式(14)和(15)，在以D_i-1，i为中心的大小为2t+1的时间窗口内考虑各个相似性测度D_i-1，i。然后，当且仅当以下条件成立时检测到帧F_i-1与F_i之间的不连续性：D_i-1，i是该时间窗口内的最大距离并且比该时间窗口内的第二大距离至少大thr倍。这种时间自适应方案旨在减少由于帧之间的高运动级而产生的误检测数量。存在几种用于检测帧不连续性的这种处理这种时间序列的方案。

应当清楚地理解，在本发明优选实施例中，在许多尺度下和在多个通道上提取描述符。然而，在本发明另选实施例中不必如此。例如，在本发明一个实施例中，在多个尺度下但是只针对一个通道提取描述符。在本发明另一实施例中，针对单个尺度但是在多个通道上提取描述符。在本发明又一实施例中，在单个尺度下并针对单个通道提取描述符。

此外，在前述实施例中，对于对帧不连续性的检测，考虑对所有连续帧对的处理。另选实施例可以更稀疏地处理帧。一另选实施例仅处理每个第四帧，而再一实施例仅处理每个第16帧。这种改进进一步提高了视频分割系统的速度。

此外，上述描述涉及对未压缩数字视频(其中由其像素值表示每个帧)的处理。本发明也可以直接应用于MPEG压缩视频而不必进行解压。

对于本领域的技术人员来说，MPEG视频的特性是公知的，在书Watkinson，J.，“The MPEG Handbook：MPEG-1，MPEG-2，MPEG-4”，FocalPress，Oxford 2001，ISBN：0-240-51656-7中对其进行了专业描述。

在本发明的用于MPEG压缩视频的一个实施例中，仅处理视频的I帧。更具体来说，仅处理I帧的DC表示，即，对于8×8像素的各块，仅采用其DCT变换的DC分量。实际上，在通过8×8块平均对其进行压缩之前，I帧的该DC表示仅仅是原始帧的再采样版。由于不必进行解压就可以直接从压缩视频流取回DC分量，显然可以把本发明实施例直接应用于对MPEG压缩视频的I帧的处理。

例如可以在带有合适的软件和/或硬件修改的计算机系统中实现本发明。例如，可以通过具有以下装置的计算机或类似设备实现本发明：控制或处理装置，如处理器或控制装置；包括图像存储装置的数据存储装置，如存储器、磁存储器、CD、DVD等；数据输出装置，如显示器或监视器或打印机；数据输入装置，如键盘；以及图像输入装置，如扫描仪；或这些组件与附加组件的任何组合。可以按软件和/或硬件形式或者按特定应用设备或特定应用模块(如集成电路)提供本发明的多个方面。在可以从其他组件(例如，在因特网上)远程提供根据本发明实施例的设备中的系统组件。

图5示出了具有计算机系统形成的合适的设备的框图，其中，控制单元10100连接到图像存储装置10200、描述符存储装置10300以及显示器10400。该图像存储装置10200存储有与待根据前述实施例表示或比较的图像对应的数据。该数据可以是与单幅图像、多幅图像、图像族、图像序列或整个图像数据库对应的数据。描述符存储装置10300(其可以是数据库)用于存储所得到的所有描述符，包括由控制单元10100计算出的描述符。在显示器10400上把控制单元的操作结果呈现给用户。

术语“尺度”与“分辨率”在这里是可互换使用的。图像的区域可以意指整幅图像或图像的一部分。

Claims

1.一种用于表示图像的方法，其包括以下步骤：根据针对图像的至少一个区域的色彩信息和色彩互相关信息导出至少一个描述符，该描述符是利用该区域中的像素值导出的，并具有作为所述区域中的像素值的函数的至少两个描述符元素，其中，仅利用该区域中的像素子集导出针对该区域的所述描述符元素中的至少一个描述符元素，其中，导出所述至少一个描述符的步骤包括执行以下步骤：

识别所述图像的所述区域；

确定所述区域中的像素值；

对所述区域的像素值进行第一计算，以确定表示所述区域的色彩信息的第一值；

对所述区域的像素值进行不同的第二计算，以确定表示所述区域的色彩互相关信息的第二值，其中，所述第一计算和所述第二计算中的至少一个仅利用所述区域中的像素子集；以及

形成包含至少所述第一值和所述第二值的描述符，作为所述至少两个描述符元素。

2.如权利要求1所述的方法，其中，仅利用区域中的像素子集导出针对该区域的多个描述符元素中的每一个。

3.如权利要求1所述的方法，其中，仅利用区域中的像素子集导出针对该区域的所有描述符元素。

4.如权利要求1所述的方法，其中，用于导出所述描述符元素的计算使得所得描述符元素数量比用于导出这些描述符元素的像素数量要少。

5.如权利要求1所述的方法，其中，至少一个描述符元素表示针对所述区域的像素平均，并且/或者至少一个描述符元素表示有关所述区域中的像素的差函数，并且/或者至少一个描述符元素表示所述区域中的像素值范围。

6.如权利要求5所述的方法，其中，至少一个描述符元素表示两个像素值之差或两个像素值和的差。

7.如权利要求5所述的方法，其中，针对任何尺度利用以下公式导出所述描述符元素：

χ₁＝(F^Y _i(64×64)(0，0)+F^Y _i(64×64)(1，0)+F^Y _i(64×64)(0，1)+F^Y _i(64×64)(1，1))/4，

χ₂＝(F^Y _i(64×64)(0，0)-F^Y _i(64×64)(1，0))/2，

χ₃＝(F^Y _i(64×64)(0，0)-F^Y _i(64×64)(0，1))/2，

χ₄＝(F^Y _i(64×64)(0，0)-F^Y _i(64×64)(1，1))/2，

其中，F^Y _i(64×64)(0，0)、F^Y _i(64×64)(1，0)、F^Y _i(64×64)(0，1)以及F^Y _i(64×64)(1，1)是通过将2×2窗口应用于图像的左上角而指定的局部邻域中的像素，描述符元素χ₁捕获色彩内容信息，描述符元素χ₂、χ₃以及χ₄捕获色彩互相关信息。

8.如权利要求5所述的方法，其中，针对任何尺度利用以下公式导出所述描述符元素：

ψ₁＝(F^Y _i(64×64)(0，0)+F^Y _i(64×64)(1，0)+F^Y _i(64×64)(0，1)+F^Y _i(64×64)(1，1))/4，

ψ₂＝max(F^Y _i(64×64)(0，0)，F^Y _i(64×64)(1，0)，F^Y _i(64×64)(0，1)，F^Y _i(64×64)(1，1))-

min(F^Y _i(64×64)(0，0)，F^Y _i(64×64)(1，0)，F^Y _i(64×64)(0，1)，F^Y _i(64×64)(1，1))，

其中，F^Y _i(64×64)(0，0)、F^Y _i(64×64)(1，0)、F^Y _i(64×64)(0，1)以及F^Y _i(64×64)(1，1)是通过将2×2窗口应用于图像的左上角而指定的局部邻域中的像素，描述符元素ψ₁捕获色彩内容信息，而描述符元素ψ₂捕获色彩互相关信息；

或者，针对任何尺度利用以下公式使用以下公式导出所述描述符元素：

φ₁＝(F^Y _i(64×64)(0，0)+F^Y _i(64×64)(1，0)+F^Y _i(64×64)(0，1)+F^Y _i(64×64)(1，1))/4，

φ₂＝(F^Y _i(64×64)(0，0)-F^Y _i(64×64)(1，0))/2，

φ₃＝(F^Y _i(64×64)(0，0)-F^Y _i(64×64)(1，1))/2，

φ₄＝(F^Y _i(64×64)(0，0)-F^Y _i(64×64)(0，1))/2，

其中，F^Y _i(64×64)(0，0)、F^Y _i(64×64)(1，0)、F^Y _i(64×64)(0，1)以及F^Y _i(64×64)(1，1)是通过将2×2窗口应用于图像的左上角而指定的局部邻域中的像素，描述符元素φ₁捕获色彩内容信息，而描述符元素φ₂-φ₄捕获色彩互相关信息；

ψ₁＝(F^Y _i(64x64)(0，0)+F^Y _i(64x64)(1，0)+F^Y _i(64x64)(2，0)+F^Y _i(64x64)(3，0)+F^Y _i(64x64)(0，1)

+F^Y _i(64x64)(1，1)+F^Y _i(64x64)(2，1)+F^Y _i(64x64)(3，1)+F^Y _i(64x64)(0，2)+F^Y _i(64x64)(1，2)+

F^Y _i(64x64)(2，2)+F^Y _i(64x64)(3，2)+F^Y _i(64x64)(0，3)+F^Y _i(64x64)(1，3)+F^Y _i(64x64)(2，3)+

F^Y _i(64x64)(3，3))/16，

ψ₂＝(F^Y _i(64x64)(0，0)+F^Y _i(64x64)(1，0)+F^Y _i(64x64)(2，0)+F^Y _i(64x64)(3，0)-F^Y _i(64x64)(0，1)

-F^Y _i(64x64)(1，1)-F^Y _i(64x64)(2，1)-F^Y _i(64x64)(3，1)-F^Y _i(64x64)(0，2)-F^Y _i(64x64)(1，2)-

F^Y _i(64x64)(2，2)-F^Y _i(64x64)(3，2)+F^Y _i(64x64)(0，3)+F^Y _i(64x64)(1，3)+F^Y _i(64x64)(2，3)+

F^Y _i(64x64)(3，3))/16，

ψ₃＝(F^Y _i(64x64)(0，0)-F^Y _i(64x64)(1，0)-F^Y _i(64x64)(2，0)+F^Y _i(64x64)(3，0)+F^Y _i(64x64)(0，1)

-F^Y _i(64x64)(1，1)-F^Y _i(64x64)(2，1)+F^Y _i(64x64)(3，1)+F^Y _i(64x64)(0，2)-F^Y _i(64x64)(1，2)-

F^Y _i(64x64)(2，2)+F^Y _i(64x64)(3，2)+F^Y _i(64x64)(0，3)-F^Y _i(64x64)(1，3)-F^Y _i(64x64)(2，3)+

F^Y _i(64x64)(3，3))/16，

ψ₄＝max(F^Y _i(64x64)(0，0)，F^Y _i(64x64)(1，0)，F^Y _i(64x64)(2，0)，F^Y _i(64x64)(3，0)，

F^Y _i(64x64)(0，1)，F^Y _i(64x64)(1，1)，F^Y _i(64x64)(2，1)，F^Y _i(64x64)(3，1)，F^Y _i(64x64)(0，2)，

F^Y _i(64x64)(1，2)，F^Y _i(64x64)(2，2)，F^Y _i(64x64)(3，2)，F^Y _i(64x64)(0，3)，F^Y _i(64x64)(1，3)，

F^Y _i(64x64)(2，3)，F^Y _i(64x64)(3，3))-

min(F^Y _i(64x64)(0，0)，F^Y _i(64x64)(1，0)，F^Y _i(64x64)(2，0)，F^Y _i(64x64)(3，0)，F^Y _i(64x64)(0，1)，

F^Y _i(64x64)(1，1)，F^Y _i(64x64)(2，1)，F^Y _i(64x64)(3，1)，F^Y _i(64x64)(0，2)，F^Y _i(64x64)(1，2)，

F^Y _i(64x64)(2，2)，F^Y _i(64x64)(3，2)，F^Y _i(64x64)(0，3)，F^Y _i(64x64)(1，3)，F^Y _i(64x64)(2，3)，

F^Y _i(64x64)(3，3))，

其中，F^Y _i(64×64)(0，0)到F^Y _i(64×64)(3，3)是通过将4×4窗口应用于图像的左上角而指定的局部邻域中的像素，描述符元素ψ₁捕获了色彩内容信息，描述符元素ψ₂、ψ₃以及ψ₄捕获了色彩互相关信息。

9.如权利要求1所述的方法，其中，针对图像的多个交叠或非交叠区域生成描述符。

10.如权利要求1所述的方法，其包括以下步骤：对图像进行处理以在多个尺度下生成图像的多个表示，并导出针对所述多个尺度的描述符，并且/或者针对多个色彩通道中的每一个处理该图像并导出针对每个所述通道的描述符。

11.如根据权利要求10所述的方法，其中，对于不同色彩通道使用相同尺度。

12.如根据权利要求10所述的方法，其中，对于不同通道使用不同尺度。

13.如权利要求1所述的方法，其中，对于不同区域和/或不同尺度和/或不同色彩通道使用不同的用于导出描述符的处理。

14.如权利要求1所述的方法，其中，不进行解码而直接从MPEG编码I帧导出所述描述符。

15.如权利要求1所述的方法，其包括以下步骤：将针对图像的多个描述符关联起来以形成单个描述符。

16.一种用于表示图像组的方法，其包括以下步骤：使用如前述任一权利要求所述的方法导出所述图像组中的各图像的表示，并使用所述图像组中的各图像的所述表示来表示该图像组。

17.如权利要求16所述的方法，其包括以下步骤：导出所述图像组中的各图像的所述表示的函数以表示所述图像组。

18.如权利要求17所述的方法，其中，所述函数包括诸如平均、中值、平均值、协方差等的统计测度。

19.一种用于比较图像和/或图像组的方法，其包括对使用权利要求1所述的方法导出的图像或图像组的表示进行比较的步骤。

20.如权利要求19所述的方法，其用于确定相似性。

21.如权利要求19所述的方法，其包括对作为图像序列的一部分的多幅图像进行比较的步骤，其中，将比较结果用于确定在这些图像之间是否发生了帧不连续性或诸如场景变化或照明效果的事件。

22.如权利要求19所述的方法，其用于图像检索。

23.一种使用如权利要求1所述的方法对图像或图像组进行编码的方法。

24.一种对使用如权利要求23所述的方法编码的图像或图像序列进行解码的方法。

25.一种用于表示图像的设备，其包括：用于根据针对图像的至少一个区域的色彩信息和色彩互相关信息导出至少一个描述符的装置，该描述符是利用该区域中的像素值导出的，并具有作为所述区域中的像素值的函数的至少两个描述符元素，其中，仅利用该区域中的像素子集导出针对该区域的所述描述符元素中的至少一个描述符元素，其中，导出所述至少一个描述符的装置包括：

用于识别所述图像的所述区域的装置；

用于确定所述区域中的像素值的装置；

用于对所述区域的像素值进行第一计算，以确定表示所述区域的色彩信息的第一值的装置；

用于对所述区域的像素值进行不同的第二计算，以确定表示所述区域的色彩互相关信息的第二值的装置，其中，所述第一计算和所述第二计算中的至少一个仅利用所述区域中的像素子集；以及

用于形成包含至少所述第一值和所述第二值的描述符，作为所述至少两个描述符元素的装置。

26.一种用于对图像和/或图像组进行比较的设备，其包括：根据权利要求25所述的设备；以及用于对图像和/或图像组的描述符进行比较的装置。

27.如权利要求25或26所述的设备，其还包括：用于存储图像数据和/或图像描述符的存储装置。