CN102737243A

CN102737243A - 获取多幅图像的描述信息的方法及装置与图像匹配方法

Info

Publication number: CN102737243A
Application number: CN2011100857054A
Authority: CN
Inventors: 曹琼; 刘汝杰; 于浩; 杉村昌彦; 上原祐介
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-03-31
Filing date: 2011-03-31
Publication date: 2012-10-17
Anticipated expiration: 2031-03-31
Also published as: US8923623B2; CN102737243B; JP2012216207A; JP5861539B2; US20120251010A1

Abstract

一种获取多幅图像的描述信息的方法及装置与图像匹配方法。获取多幅图像的描述信息的方法包括：针对多幅图像中的每幅图像进行特征点检测，以得到每幅图像的多个特征点；针对每幅图像，根据基于检测到的多个特征点得到的该图像的多个第一局部特征描述子和基于各图像的多个第一局部特征描述子得到的多个第一视觉单词来生成该图像的0级描述信息；以及针对每幅图像执行以下步骤：对该图像进行第n-1次分割，以得到该图像的多幅n-1级子图像；以及根据基于相应特征点所在的n-1级子图像得到的该图像的多个第n局部特征描述子和基于各图像的多个第n局部特征描述子得到的多个第n视觉单词来生成该图像的n-1级描述信息，其中n＝2，3，......，K+1，以及K为正整数。

Description

获取多幅图像的描述信息的方法及装置与图像匹配方法

技术领域

本发明总体上涉及图像处理的技术领域，更具体而言，涉及获取图像的描述信息的方法以及装置。

背景技术

随着信息技术的发展，大规模数据库越来越多的出现在多媒体应用领域，比如图像文件管理，工业图像/视频监管，医学图像诊断等等。针对大规模数据库的快速图像检索和识别也随之成为一个重要的研究课题。

传统的基于“词袋”(Bag-of-words)的图像描述方法在解决这一问题上有良好的表现，并且得到普遍应用。例如，C.Wallraven等人的“Recognition with local features：the kernel recipe”，In Proc.ICCV，volume 1，pages 257-264，2003中介绍了这种基于“词袋”的图像描述方法。它从大量图像局部特征中抽取出具有代表性的“视觉单词”(visual words)，并且采用图像中这些视觉单词出现的频率来描述该图像。同时为了克服该特征在空间信息的描述受限，人们提出了基于图像多层空间结构的描述方法。例如，K.Grauman等人的“Pyramid matchkernels：Discriminative classification with sets of imagefeatures”，In.Proc.ICCV，2005中公开了一种用空间金字塔形式描述图像的方法。然而，由于这些方法对每一个特征点均只计算一个局部特征描述子，所以认为生成的是静态视觉单词，这样的视觉单词不一定都适用于描述不同空间层次上的图像特征。

发明内容

鉴于现有技术中存在的上述问题，本发明的一个目的是提供一种新颖的基于动态词袋的多层图像描述方法，其能够在不同空间层次上准确地描述图像。

本发明的另一目的是提供一种图像匹配方法，其能够实现图像的灵活匹配。

按照本发明的一方面，提供了一种获取多幅图像的描述信息的方法。该方法包括：

检测步骤，针对多幅图像中的每幅图像进行特征点检测，以得到每幅图像的多个特征点；

用于获取多幅图像的0级描述信息的第一获取步骤，针对每幅图像，根据基于该图像的各特征点得到的该图像的多个第一局部特征描述子和基于各图像的多个第一局部特征描述子得到的多个第一视觉单词来生成该图像的0级描述信息；及

用于获取多幅图像的n-1级描述信息的第n获取步骤，针对每幅图像执行以下步骤：第n-1分割子步骤，对该图像进行第n-1次分割，以得到该图像的多幅n-1级子图像；以及第n获取子步骤，根据基于该图像的各特征点得到的该图像的多个第n局部特征描述子和基于各图像的多个第n局部特征描述子得到的多个第n视觉单词来生成该图像的n-1级描述信息，其中该图像的各个第n局部特征描述子根据相应特征点所在的n-1级子图像得到，

其中n＝2，3，...，K+1，以及K为正整数。

按照本发明的另一方面，提供了一种图像匹配方法。该方法包括通过把输入的图像与多幅图像的各图像分别进行匹配来获得多个相似度，每个相似度的获得包括：把输入的图像的0级描述信息直到K级描述信息分别与所述多幅图像中的相应图像的0级描述信息直到K级描述信息进行比较，以得到包括从0级匹配度直到K级匹配度的多个匹配度；以及根据所述多个匹配度的加权和来得到该相似度，其中K为正整数，

其中根据本发明所述的方法获取多幅图像的各图像的0级描述信息直到K级描述信息，

根据基于输入的图像中包含的多个特征点得到的输入的图像的多个0级局部特征描述子和所述多个第一视觉单词来获取输入的图像的0级描述信息，

通过针对输入的图像执行以下步骤来获取输入的图像的n-1级描述信息，n＝2，3，...，K+1：对输入的图像进行第n-1次分割，以得到多幅n-1级子图像；及根据基于输入的图像的各特征点得到的输入的图像的多个n级局部特征描述子和所述多个第n视觉单词来生成输入的图像的n-1级描述信息，其中各个n级局部特征描述子根据相应特征点所在的输入的图像的n-1级子图像得到，并且

仅当所述0级匹配度大于等于预定阈值时才进行1级描述信息的比较，以及仅当n-1级匹配度大于等于所述预定阈值时才进行n级描述信息的比较。

按照本发明的又一方面，提供了一种获取多幅图像的描述信息的装置。包括：

检测单元，配置成针对多幅图像中的每幅图像进行特征点检测，以得到每幅图像的多个特征点；

用于获取多幅图像的0级描述信息的第一获取单元，配置成针对每幅图像，根据基于该图像的各特征点得到的该图像的多个第一局部特征描述子和基于各图像的多个第一局部特征描述子得到的多个第一视觉单词来生成该图像的0级描述信息；及

用于获取多幅图像的n-1级描述信息的第n获取单元，包括：第n-1分割子单元，配置成针对每幅图像进行第n-1次分割，以得到该图像的多幅n-1级子图像；以及第n获取子单元，配置成针对每幅图像，根据基于该图像的各特征点得到的该图像的多个第n局部特征描述子和基于各图像的多个第n局部特征描述子得到的多个第n视觉单词来生成该图像的n-1级描述信息，其中该图像的各个第n局部特征描述子根据相应特征点所在的n-1级子图像得到，

其中n＝2，3，...，K+1，以及K为正整数。

按照本发明的再一方面，提供了一种存储有机器可读取的指令代码的程序产品，所述指令代码由机器读取并执行时，可执行如上所述的根据本发明实施例的获取多幅图像的描述信息的方法。

按照本发明的又一方面，提供了一种承载有如上所述的程序产品的存储介质。

与传统方法对每个特征点仅得到一个局部特征描述子不同，本发明对每个特征点产生一系列的描述子。因此，可以实现在不同空间层次上准确地描述图像。

此外，可以按照从粗糙层到精细层的顺序进行图像匹配，并且仅当m-1层上两幅图像的匹配度大于预定阈值时，才进行m层上的图像匹配。因此，可以实现图像的灵活匹配。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1是示出了根据本发明一个实施例的获取多幅图像的描述信息的方法的流程简图；

图2是示出了用于实现图1所示第n获取步骤的一个具体示例的流程简图；

图3是示出了某幅图像的两级描述信息的示意图；

图4是示出了根据本发明的一个实施例的进行图像匹配的方法的流程简图；

图5是示出了根据本发明的一个实施例的获取多幅图像的描述信息的装置的简化框图；以及

图6是示出可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。

具体实施方式

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

在本发明的实施例中，为了获得足够丰富的图像特征信息，对图像进行多层划分，在每一空间层上都计算局部特征描述子，针对从粗糙到精细的各个空间层分别根据相应的局部特征描述子生成各自的视觉单词，并且利用各个空间层上相应的视觉单词获得有效的多层图像描述。

图1是示出了根据本发明一个实施例的获取多幅图像的描述信息的方法100的流程简图。如图1所示，首先，在检测步骤S110中，针对多幅图像中的每幅图像进行特征点检测，以得到每幅图像的多个特征点。特征点的数目取决于例如图像的特性、使用描述信息进行图像检索和识别的处理器的性能等。根据应用的需要，可以通过菜单或者其它方法由用户选择特征点的数目。或者，根据使用描述信息的处理器的性能和通过采样测试，本领域技术人员可以确定一个比较合理的特征点的数目，使得获取描述信息所用的时间在用户可接受的范围以内。特征点的检测可以采用哈里斯(Harris)角点检测子、对边缘像素进行采样等已知方法。

接下来，在第一获取步骤S130中获取多幅图像的0级描述信息。具体地，针对每幅图像，根据基于该图像的各特征点得到的该图像的多个局部特征描述子(第一局部特征描述子)和基于所有图像的局部特征描述子得到的视觉单词库(多个第一视觉单词)来生成该图像的0级描述信息。

在一个实施例中，计算该图像的每个特征点的局部特征描述子，以得到该图像的多个局部特征描述子。例如，可以采用尺寸不变特征(SIFT)提取方法提取SIFT特征，计算特征点的形状上下文描述子，或者统计图像中其他像素点与该特征点之间的相对位置和角度关系矩阵。然后，把全部图像的局部特征描述子放在一起来产生视觉单词库。可以通过诸如k均值聚类的方法获得视觉单词库。例如，对该图像的所有特征点的局部特征描述子进行k均值聚类，每个聚类中心的取值对应一个视觉单词，保存这k个聚类中心的取值和其对应的视觉单词编号，即构成视觉单词库。其中k为自然数，一般取值为500-1000。接着，使该图像的多个局部特征描述子分别与视觉单词库中的相应视觉单词对应，以便通过统计视觉单词库中每个视觉单词在该图像中出现的频率来生成该图像的0级描述信息。可以对每幅图像采用视觉单词映射方法，以便把该图像的各特征点的局部特征描述子映射到相应的视觉单词。例如，对于每个特征点，分别计算该特征点的局部特征描述子与视觉单词库中各视觉单词所对应的各聚类中心的取值之间的欧式距离，以找出欧式距离最小的视觉单词的编号来表示该特征点；并且统计每个视觉单词的编号在图像中出现的次数，以便用视觉单词的直方图来描述图像。

过程前进到第n获取步骤S150，以便获取多幅图像的n-1级描述信息，其中n＝2，3，...，K+1，以及K为正整数。具体地，针对每幅图像执行以下步骤：第n-1分割子步骤，对该图像进行第n-1次分割，以得到该图像的多幅n-1级子图像；以及第n获取子步骤，根据基于该图像的各特征点得到的该图像的多个第n局部特征描述子和基于各图像的多个第n局部特征描述子得到的多个第n视觉单词来生成该图像的n-1级描述信息，其中该图像的各个第n局部特征描述子根据相应特征点所在的n-1级子图像得到。

下面参照图2描述用于实现图1所示第n获取步骤S150(n＝2，3，...，K+1)的一个具体示例S250的流程简图。即，具体示例S250包括从第二获取步骤至第K+1获取步骤的K个步骤。如图2所示，在步骤S252中，把每幅图像重复划分为一系列逐渐变精细的空间网格，直到预定的次数K，以获得该图像的分别位于1至K网格级上的K组网格单元(子图像)。划分的次数K可以由用户设定或者根据应用来确定。空间网格可以采用诸如4×4矩形网格或者圆形网格。接下来，在步骤S254中，在每个网格级上，根据每个特征点所在的网格单元计算该特征点的相应局部特征描述子，以获得各图像在该网格级上的局部特征描述子。例如，可以在网格单元内计算该特征点的形状上下文描述子，或者统计网格单元内其他像素点与该特征点之间的相对位置和角度关系矩阵。

在一个优选实施例中，针对第二获取步骤至第K+1获取步骤中的某些获取步骤，可以在步骤S252之前增加用于检测附加特征点的另外的检测步骤，以便更准确地描述图像。

过程前进到步骤S256，把所有图像在同一网格级的局部特征描述子进行聚类，例如k均值聚类，以产生该网格级的视觉单词库。这样，不同网格级的视觉单词库是不一样的。

然后，在步骤S258中，针对每个图像，利用各个网格级上该图像的局部特征描述子和视觉单词库来生成1至K级图像描述。具体地，在每个网格级上，使该图像在该网格级上的局部特征描述子分别与该级视觉单词库中的相应视觉单词对应。例如，通过视觉单词映射方法把该图像在该网格级上的局部特征描述子映射到该级视觉单词库中的相应视觉单词。接下来，针对该图像在该网格级上的每个网格单元，通过统计该级视觉单词库中的每个视觉单词在该网格单元内的出现频率，来生成该网格单元的描述信息，例如视觉单词直方图；并且把该网格级上所有网格单元的描述信息进行组合，例如把各个视觉单词直方图顺序连接成一个长直方图，来得到图像在该网格级上的描述信息。替代地，也可以通过直接统计该级视觉单词库中的每个视觉单词在该图像内的出现频率，来生成图像在该网格级上的描述信息。

图3是示出了某幅图像的两级描述信息的示意图。图3中，圆圈中的描述信息是一个网格单元(子图像)的视觉单词直方图。

另一方面，本发明另外的实施例还提供了一种把输入的图像与多幅图像中的各幅图像分别进行匹配的方法。图4示出了该方法400的简化流程。如图4所示，在步骤S410中，获取多幅图像中每幅图像以及输入的图像的0级至K级描述信息。可以根据图1所示的方法获取多幅图像中每幅图像的描述信息。

另一方面，可以根据基于输入的图像中包含的多个特征点得到的输入的图像的多个0级局部特征描述子和在图1的第一获取步骤S130中得到的视觉单词库来获取输入的图像的0级描述信息。在一个实施例中，计算输入的图像的每个特征点的局部特征描述子，以得到输入的图像的多个0级局部特征描述子。例如，可以采用尺寸不变特征(SIFT)提取方法提取SIFT特征，计算特征点的形状上下文描述子，或者统计输入的图像中其他像素点与该特征点之间的相对位置和角度关系矩阵。然后，使输入的图像的多个0级局部特征描述子分别与该视觉单词库中的相应视觉单词对应，以便通过统计视觉单词库中每个视觉单词在输入的图像中出现的频率来生成输入的图像的0级描述信息。

再者，可以通过对输入的图像执行以下步骤来获取输入的图像的n-1级描述信息，n＝2，3，...，K+1：对输入的图像进行第n-1次分割，以得到多幅n-1级子图像；及根据基于输入的图像的各特征点得到的输入的图像的多个n级局部特征描述子和在图1的第n获取步骤S150中得到的多个第n视觉单词来生成输入的图像的n-1级描述信息，其中各个n级局部特征描述子根据相应特征点所在的输入的图像的n-1级子图像得到。在一个实施例中，把输入的图像重复划分为一系列逐渐变精细的空间网格，直到预定的次数K，以获得输入的图像的分别位于1至K网格级上的K组网格单元(子图像)。而且，在每个网格级上，根据网格单元来计算其内所含特征点的局部特征描述子，以获得输入的图像在该网格级上的局部特征描述子。接下来，在每个网格级上，通过诸如视觉单词映射的方法，利用输入的图像在该网格级上的局部特征描述子和在图1的第n获取步骤S150中得到的相同网格级上的视觉单词库来生成输入的图像在该网格级上的描述信息。

过程前进到步骤S430，针对每幅图像，把该图像的0级至K级描述信息分别与输入的图像的0级至K级描述信息进行比较，以得到0级至K级匹配度。

然后，在步骤S450中，针对每幅图像，计算0级至K级匹配度的加权和，以得到该图像与输入的图像的相似度。各级上的加权系数可以根据本级的重要度来赋值。

在方法400中，仅当0级匹配度大于等于预定阈值时才进行1级描述信息的比较，以及仅当n-1级匹配度大于等于预定阈值时才进行n级描述信息的比较。

在根据本发明实施例的图像匹配方法中，可以实现图像的灵活匹配，按照从粗糙层到精细层的顺序进行图像匹配，并且仅当在m-1层两幅图像匹配度大于给定阈值时，才进行m层上的图像匹配。

图5是示出了根据本发明的一个实施例的获取多幅图像的描述信息的装置500的简化框图。如图5所示，该装置500包括检测单元510、第一获取单元530以及第二获取单元550₁至第K+1获取单元550_K。其中，第二获取单元550₁至第K+1获取单元550_K各自分别包括相应的分割子单元和获取子单元。如图5所示，第二获取单元550₁包括第一分割子单元550_1A和第二获取子单元550_1B；以及第K+1获取单元550_K包括第K分割子单元550_KA和第K+1获取子单元550_KB。在工作中，检测单元510针对输入的多幅图像进行特征点检测，以便为每幅图像提取多个特征点。第一获取单元530根据提取的特征点和输入的多幅图像得到每幅图像的局部特征描述子，根据所有图像的局部特征描述子得到多个第一视觉单词，并且针对每幅图像，根据该图像的局部特征描述子和多个第一视觉单词来生成该图像的0级描述信息。第一分割子单元550_1A直到第K分割子单元550_KA均对输入的多幅图像进行划分，从而分别把每幅图像分割成多个1级子图像直到多个K级子图像。第二获取子单元550_1B直到第K+1获取子单元550_KB均接收通过检测单元510提取的特征点。第二获取子单元550_1B接收来自第一分割子单元550_1A的1级子图像。类似地，第K+1获取子单元550_KB接收来自第K分割子单元550_KA的K级子图像。针对每幅图像，第二获取子单元550_1B根据接收的该图像的特征点和该图像的1级子图像得到该图像的1级局部特征描述子。然后，第二获取子单元550_1B根据所有图像的1级局部特征描述子得到多个第二视觉单词，并且针对每幅图像，根据该图像的1级局部特征描述子和多个第二视觉单词来生成该图像的1级描述信息。类似地，第K+1获取子单元550_KB得到多幅图像的K级描述信息。

上述图5中示出的装置500及其所包括的各个单元510-550可以被配置成执行上面参照图1和图2所描述的各种操作。关于这些操作的进一步细节，可以参考以上描述的各个实施例、具体实施方式和实例，这里不再详细描述。

上面已通过框图、流程图和/或实施例进行了详细描述，阐明了根据本发明的实施例的装置和/或方法的不同实施方式。当这些框图、流程图和/或实施例包含一个或多个功能和/或操作时，本领域的技术人员明白，这些框图、流程图和/或实施例中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中，本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而，本领域的技术人员会认识到，本说明书中描述的实施方式的一些方面能够全部或部分地在集成电路中以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如，以在一个或多个计算机系统上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如，以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施，并且，根据本说明书中公开的内容，设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。

例如，上述装置500和各个组成模块、单元、子单元可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的计算机(例如图6所示的通用计算机600)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能。

图6示出了可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。

在图6中，中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中，还根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。

下述部件也连接到输入/输出接口605：输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡例如LAN卡、调制解调器等)。通信部分609经由网络例如因特网执行通信处理。根据需要，驱动器610也可连接到输入/输出接口605。可拆卸介质611例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上，使得从中读出的计算机程序根据需要被安装到存储部分608中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质611安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 602、存储部分608中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

因此，本发明还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的各种方法。相应地，用于承载这种程序产品的上面列举的各种存储介质也包括在本发明的公开中。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

通过上面对本发明的实施例的描述可知，本发明涵盖的技术方案包括但不限于如下附记所描述的内容：

附记1.一种获取多幅图像的描述信息的方法，包括：

用于获取多幅图像的n-1级描述信息的第n获取步骤，针对每幅图像执行以下步骤：

第n-1分割子步骤，对该图像进行第n-1次分割，以得到该图像的多幅n-1级子图像；以及

第n获取子步骤，根据基于该图像的各特征点得到的该图像的多个第n局部特征描述子和基于各图像的多个第n局部特征描述子得到的多个第n视觉单词来生成该图像的n-1级描述信息，其中该图像的各个第n局部特征描述子根据相应特征点所在的n-1级子图像得到，

其中n＝2，3，...，K+1，以及K为正整数。

附记2.根据附记1所述的方法，其中针对每幅图像生成该图像的0级描述信息包括：

第一计算子步骤，计算该图像的所述多个特征点中每个特征点的第一局部特征描述子，以得到该图像的多个第一局部特征描述子；及

第一描述信息生成子步骤，使该图像的多个第一局部特征描述子分别与所述多个第一视觉单词中的相应第一视觉单词对应，以便通过统计多个第一视觉单词中的每个第一视觉单词在该图像中出现的频率来生成该图像的0级描述信息。

附记3.根据附记1或2所述的方法，其中第n获取子步骤包括：

第n计算子步骤，针对该图像的所述多个特征点中的每个特征点，根据该特征点所在的n-1级子图像计算得到该特征点的第n局部特征描述子，以得到该图像的多个第n局部特征描述子；及

第n描述信息生成子步骤，包括：使该图像的所述多个特征点中的每个特征点的第n局部特征描述子对应于所述多个第n视觉单词中的相应第n视觉单词，以便针对该图像的每幅n-1级子图像，通过统计多个第n视觉单词中的每个第n视觉单词在该n-1级子图像中出现的频率来生成该n-1级子图像的描述信息；以及把各n-1级子图像的描述信息进行组合，以生成该图像的n-1级描述信息。

附记4.根据附记1-3之一所述的方法，其中多个第一视觉单词的获得包括对各图像的多个第一局部特征描述子进行聚类，以及多个第n视觉单词的获得包括对各图像的多个第n局部特征描述子进行聚类。

附记5.根据附记1-4之一所述的方法，其中多个第一局部特征描述子和多个第n局部特征描述子包括尺寸不变特征(SIFT)描述子、形状上下文描述子以及相对位置和角度关系矩阵描述子中的一种。

附记6.一种图像匹配方法，包括通过把输入的图像与多幅图像的各图像分别进行匹配来获得多个相似度，每个相似度的获得包括：把输入的图像的0级描述信息直到K级描述信息分别与所述多幅图像中的相应图像的0级描述信息直到K级描述信息进行比较，以得到包括从0级匹配度直到K级匹配度的多个匹配度；以及根据所述多个匹配度的加权和来得到该相似度，其中K为正整数，

其中根据附记1-5中之一所述的方法获取多幅图像的各图像的0级描述信息直到K级描述信息，

通过针对输入的图像执行以下步骤来获取输入的图像的n-1级描述信息，n＝2，3，...，K+1：

对输入的图像进行第n-1次分割，以得到多幅n-1级子图像；及

根据基于输入的图像的各特征点得到的输入的图像的多个n级局部特征描述子和所述多个第n视觉单词来生成输入的图像的n-1级描述信息，其中各个n级局部特征描述子根据相应特征点所在的输入的图像的n-1级子图像得到，并且

附记7.根据附记6所述的方法，其中获取输入的图像的0级描述信息包括：计算输入的图像中包含的多个特征点的每个特征点的0级局部特征描述子，以得到输入的图像的多个0级局部特征描述子；以及使输入的图像的多个0级局部特征描述子与所述多个第一视觉单词中的相应第一视觉单词分别对应，以便通过统计多个第一视觉单词中的每个第一视觉单词在输入的图像中出现的频率来生成输入的图像的0级描述信息，并且

根据多个n级局部特征描述子和多个第n视觉单词来生成输入的图像的n-1级描述信息包括：

针对输入的图像的所述多个特征点中的每个特征点，根据该特征点所在的n-1级子图像计算得到该特征点的n级局部特征描述子，以得到输入的图像的多个n级局部特征描述子；

使输入的图像的所述多个特征点中的每个特征点的n级局部特征描述子对应于所述多个第n视觉单词中的相应第n视觉单词，以便针对输入的图像的每幅n-1级子图像，通过统计多个第n视觉单词中的每个第n视觉单词在该n-1级子图像中出现的频率来生成该n-1级子图像的描述信息；以及

把各n-1级子图像的描述信息进行组合，以生成输入的图像的n-1级描述信息。

附记8.一种获取多幅图像的描述信息的装置，包括：

用于获取多幅图像的n-1级描述信息的第n获取单元，包括：

第n-1分割子单元，配置成针对每幅图像进行第n-1次分割，以得到该图像的多幅n-1级子图像；以及

第n获取子单元，配置成针对每幅图像，根据基于该图像的各特征点得到的该图像的多个第n局部特征描述子和基于各图像的多个第n局部特征描述子得到的多个第n视觉单词来生成该图像的n-1级描述信息，其中该图像的各个第n局部特征描述子根据相应特征点所在的n-1级子图像得到，

其中n＝2，3，...，K+1，以及K为正整数。

附记9.根据附记8所述的装置，其中第一获取单元包括：

第一计算子单元，配置成针对每幅图像，计算该图像的所述多个特征点中每个特征点的第一局部特征描述子，以得到该图像的多个第一局部特征描述子；及

第一描述信息生成子单元，配置成针对每幅图像，使该图像的多个第一局部特征描述子分别与所述多个第一视觉单词中的相应第一视觉单词对应，以便通过统计多个第一视觉单词中的每个第一视觉单词在该图像中出现的频率来生成该图像的0级描述信息。

附记10.根据附记8或9所述的装置，其中第n获取子单元包括：

第n计算子单元，配置成针对每幅图像，计算该图像的所述多个特征点中每个特征点的第n局部特征描述子，以得到该图像的多个第n局部特征描述子，其中每个特征点的第n局部特征描述子是根据该特征点所在的n-1级子图像计算得到的；及

第n描述信息生成子单元，配置成针对每幅图像执行以下操作：使该图像的所述多个特征点中的每个特征点的第n局部特征描述子对应于所述多个第n视觉单词中的相应第n视觉单词，以便针对该图像的每幅n-1级子图像，通过统计多个第n视觉单词中的每个第n视觉单词在该n-1级子图像中出现的频率来生成该n-1级子图像的描述信息；以及把各n-1级子图像的描述信息进行组合，以生成该图像的n-1级描述信息。

附记11.根据附记8-10之一所述的装置，其中第一获取单元配置成通过对各图像的多个第一局部特征描述子进行聚类来获得多个第一视觉单词，以及第n获取单元配置成通过对各图像的多个第n局部特征描述子进行聚类来获得多个第n视觉单词。

附记12.根据附记8-11之一所述的装置，其中多个第一局部特征描述子和多个第n局部特征描述子包括尺寸不变特征(SIFT)描述子、形状上下文描述子以及相对位置和角度关系矩阵描述子中的一种。

附记13.根据附记8-12之一所述的装置，还包括：

用于获取输入的图像的0级描述信息的第一信息获取单元，配置成根据基于输入的图像中包含的多个特征点得到的输入的图像的多个0级局部特征描述子和所述多个第一视觉单词来获取输入的图像的0级描述信息；

用于获取输入的图像的n-1级描述信息的第n信息获取单元，n＝2，3，...，K+1，包括：

第n-1分割子单元，配置成对输入的图像进行第n-1次分割，以得到多幅n-1级子图像；及

第n信息生成子单元，配置成根据基于输入的图像的各特征点得到的输入的图像的多个n级局部特征描述子和所述多个第n视觉单词来生成输入的图像的n-1级描述信息，其中各个n级局部特征描述子根据相应特征点所在的输入的图像的n-1级子图像得到；以及

配置成把输入的图像与所述多幅图像的各图像分别进行匹配来获得多个相似度的图像匹配单元，包括：

比较子单元，配置成针对所述多幅图像中的每幅图像，把输入的图像的0级描述信息直到K级描述信息分别与该图像的0级描述信息直到K级描述信息进行比较，以得到该图像的包括从0级匹配度直到K级匹配度的多个匹配度；以及

相似度生成单元，配置成针对每幅图像，根据该图像的所述多个匹配度的加权来得到该图像的相似度，其中K为正整数，

其中仅当所述0级匹配度大于等于预定阈值时才进行1级描述信息的比较，以及仅当n-1级匹配度大于等于所述预定阈值时才进行n级描述信息的比较。

附记14.根据附记13所述的装置，其中第一信息获取单元配置成执行以下操作：计算输入的图像中包含的多个特征点的每个特征点的0级局部特征描述子，以得到输入的图像的多个0级局部特征描述子；以及使输入的图像的多个0级局部特征描述子与所述多个第一视觉单词中的相应第一视觉单词分别对应，以便通过统计多个第一视觉单词中的每个第一视觉单词在输入的图像中出现的频率来生成输入的图像的0级描述信息，并且

所述第n信息生成子单元配置成执行如下操作：针对输入的图像的所述多个特征点中的每个特征点，根据该特征点所在的n-1级子图像计算得到该特征点的n级局部特征描述子，以得到输入的图像的多个n级局部特征描述子；使输入的图像的所述多个特征点中的每个特征点的n级局部特征描述子对应于所述多个第n视觉单词中的相应第n视觉单词，以便针对输入的图像的每幅n-1级子图像，通过统计多个第n视觉单词中的每个第n视觉单词在该n-1级子图像中出现的频率来生成该n-1级子图像的描述信息；以及把各n-1级子图像的描述信息进行组合，以生成输入的图像的n-1级描述信息。

附记15.一种存储有机器可读取的指令代码的程序产品，

所述指令代码由机器读取并执行时，可执行如附记1-7中任何一项所述的方法。

附记16.一种承载有如附记15所述的程序产品的存储介质。

Claims

1.一种获取多幅图像的描述信息的方法，包括：

其中n＝2，3，...，K+1，以及K为正整数。

2.根据权利要求1所述的方法，其中针对每幅图像生成该图像的0级描述信息包括：

3.根据权利要求1或2所述的方法，其中第n获取子步骤包括：

4.根据权利要求1-3之一所述的方法，其中多个第一视觉单词的获得包括对各图像的多个第一局部特征描述子进行聚类，以及多个第n视觉单词的获得包括对各图像的多个第n局部特征描述子进行聚类。

5.根据权利要求1-4之一所述的方法，其中多个第一局部特征描述子和多个第n局部特征描述子包括尺寸不变特征(SIFT)描述子、形状上下文描述子以及相对位置和角度关系矩阵描述子中的一种。

6.一种图像匹配方法，包括通过把输入的图像与多幅图像的各图像分别进行匹配来获得多个相似度，每个相似度的获得包括：把输入的图像的0级描述信息直到K级描述信息分别与所述多幅图像中的相应图像的0级描述信息直到K级描述信息进行比较，以得到包括从0级匹配度直到K级匹配度的多个匹配度；以及根据所述多个匹配度的加权和来得到该相似度，其中K为正整数，

其中根据权利要求1-5中之一所述的方法获取多幅图像的各图像的0级描述信息直到K级描述信息，

对输入的图像进行第n-1次分割，以得到多幅n-1级子图像；及

7.根据权利要求6所述的方法，其中获取输入的图像的0级描述信息包括：计算输入的图像中包含的多个特征点的每个特征点的0级局部特征描述子，以得到输入的图像的多个0级局部特征描述子；以及使输入的图像的多个0级局部特征描述子与所述多个第一视觉单词中的相应第一视觉单词分别对应，以便通过统计多个第一视觉单词中的每个第一视觉单词在输入的图像中出现的频率来生成输入的图像的0级描述信息，并且

8.一种获取多幅图像的描述信息的装置，包括：

用于获取多幅图像的n-1级描述信息的第n获取单元，包括：

其中n＝2，3，...，K+1，以及K为正整数。

9.根据权利要求8所述的装置，其中第一获取单元包括：

10.根据权利要求8或9所述的装置，其中第n获取子单元包括：