CN103425693B

CN103425693B - 图像处理装置、图像处理方法以及电子设备

Info

Publication number: CN103425693B
Application number: CN201210162927.6A
Authority: CN
Inventors: 曹琼; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-05-23
Filing date: 2012-05-23
Publication date: 2016-12-21
Anticipated expiration: 2032-05-23
Also published as: CN103425693A

Abstract

本发明提供了图像处理装置、图像处理方法以及电子设备，以至少克服现有的诸如视觉搜索、图像检索等图像处理技术中存在的处理精度低的问题。图像处理装置包括：用于计算多个样本图像中的至少部分样本图像中的每一个与输入图像之间的相似度的第一计算单元，其中，样本图像具有文本描述；用于根据上述相似度在上述至少部分样本图像中选择输入图像的相似图像的选择单元；用于在上述相似图像的文本描述中提取至少一个关键词的提取单元；以及用于使用上述至少一个关键词来进行检索并获得检索结果的处理单元。图像处理方法用于执行能够实现上述图像处理装置的功能的处理。上述电子设备包括上述图像处理装置。本发明的上述技术能够适用于图像处理领域。

Description

图像处理装置、图像处理方法以及电子设备

技术领域

本发明涉及图像处理领域，尤其涉及一种图像处理装置、图像处理方法以及电子设备。

背景技术

随着图像识别技术以及智能手机和平板电脑等移动设备的发展，涌现了越来越多的诸如视觉搜索、图像检索之类的图像处理技术。通常，这些图像处理技术能够对图像(例如，人们对一本书的封面、产品标签或地标建筑所拍摄的照片等)进行辨识，然后进行相关的搜索(例如，网络搜索)。由于这类技术不需要文本输入即可实现相关搜索，尤其适用于不清楚图像内容准确描述的情况下的网络搜索等，因此有可能提高网络搜索的使用率。

然而，目前诸如上述视觉搜索、图像检索之类的图像处理技术往往都只利用了图像的视觉信息，处理精度较低。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于现有技术的上述缺陷，本发明的目的之一是提供一种图像处理装置、图像处理方法以及电子设备，以至少克服现有的诸如视觉搜索、图像检索等图像处理技术中存在的处理精度低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种图像处理装置，该图像处理装置包括：第一计算单元，用于计算多个样本图像中的至少部分样本图像中的每一个与输入图像之间的相似度，其中，所述多个样本图像中的每一个均具有文本描述；选择单元，用于根据上述至少部分样本图像中的每一个与输入图像之间的相似度，在上述至少部分样本图像中选择至少一个样本图像作为输入图像的相似图像；提取单元，用于在上述相似图像的文本描述中提取至少一个关键词；以及处理单元，用于使用上述至少一个关键词来进行检索，获得检索结果，其中，第一计算单元包括：第一计算子单元，其被配置用于计算上述至少部分样本图像中的每一个与输入图像之间的视觉相似度，其中，第一计算子单元包括第一计算模块，第一计算模块被配置用于计算上述至少部分样本图像中的每一个与输入图像之间的内容相似度，第一计算模块包括：第一提取子模块，其被配置用于在输入图像中提取至少一个输入特征区域；第二提取子模块，其被配置用于在上述至少部分样本图像中的每一个中提取至少一个样本特征区域；第一计算子模块，其被配置用于根据输入图像的每个输入特征区域与上述至少部分样本图像所包括的所有样本特征区域中的每一个之间的距离，确定每个输入特征区域在上述至少部分样本图像中的每一个中的匹配区域；第二计算子模块，其被配置用于针对上述至少部分样本图像中的每一个，根据输入图像的每个输入特征区域与其在该样本图像中的匹配区域之间的距离，计算输入图像与该样本图像之间的距离；以及第三计算子模块，其被配置用于根据第二计算子模块的计算结果，获得输入图像与上述至少部分样本图像中的每一个之间的内容相似度。

根据本发明的另一个方面，还提供了一种图像处理方法，该图像处理方法包括：计算多个样本图像中的至少部分样本图像中的每一个与输入图像之间的相似度，其中，上述多个样本图像中的每一个均具有文本描述；根据上述至少部分样本图像中的每一个与输入图像之间的相似度，在上述至少部分样本图像中选择至少一个样本图像作为输入图像的相似图像；在上述相似图像的文本描述中提取至少一个关键词；以及使用上述至少一个关键词来进行检索，获得检索结果，其中，上述至少部分样本图像中的每一个与输入图像之间的相似度包括上述至少部分样本图像中的每一个与输入图像之间的视觉相似度，其中，上述至少部分样本图像中的每一个与输入图像之间的视觉相似度包括上述至少部分样本图像中的每一个与输入图像之间的内容相似度，其中，上述至少部分样本图像中的每一个与输入图像之间的内容相似度是通过如下方式获得的：在输入图像中提取至少一个输入特征区域；在上述至少部分样本图像中的每一个中提取至少一个样本特征区域；根据输入图像的每个输入特征区域与上述至少部分样本图像所包括的所有样本特征区域中的每一个之间的距离，确定每个输入特征区域在上述至少部分样本图像中的每一个中的匹配区域；针对上述至少部分样本图像中的每一个，根据输入图像的每个输入特征区域与其在该样本图像中的匹配区域之间的距离，计算输入图像与该样本图像之间的距离；以及根据第二计算子模块的计算结果，获得输入图像与上述至少部分样本图像中的每一个之间的内容相似度。

根据本发明的另一个方面，还提供了一种电子设备，该设备包括如上所述的图像处理装置。

依据本发明的其它方面，还提供了相应的计算机可读存储介质，该计算机可读存储介质上存储有能够由计算设备执行的计算机程序，所述程序在执行时能够使所述计算设备执行上述图像处理方法。

上述根据本发明实施例的图像处理装置和图像处理方法以及电子设备，至少能够获得以下益处之一：使得检索到的结果能够与输入图像更加匹配；以及能够提高诸如图像检索之类的图像处理的精度。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1是示意性地示出根据本发明的实施例的图像处理装置的一种示例结构的框图。

图2是示意性地示出如图1所示的第一计算单元的一种可能的示例结构的框图。

图3是示意性地示出如图2所示的第一计算子单元的一种可能的示例结构的框图。

图4是示出利用如图3所示的第二计算模块计算输入图像与样本图像之间的几何相似度的一个示例的示意图。

图5是示意性地示出根据本发明的实施例的图像处理装置的另一种示例结构的框图。

图6是示意性地示出如图5所示的第二计算单元的一种可能的示例结构的框图。

图7是示意性地示出如图6所示的第三计算子单元的一种可能的示例结构的框图。

图8是示出根据本发明的实施例的图像处理方法的一种示例性处理的流程图。

图9示出了可用来实现根据本发明实施例的图像处理装置和图像处理方法的一种可能的信息处理设备的硬件配置的结构简图。

本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其他元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

如上所述，现有的诸如视觉搜索、图像检索之类的图像处理技术由于只利用了图像的视觉信息，导致处理的精度较低。针对这一问题，本发明提出了一种图像处理装置。

上述图像处理装置包括：第一计算单元，用于计算多个样本图像中的至少部分样本图像中的每一个与输入图像之间的相似度，其中，所述多个样本图像中的每一个均具有文本描述；选择单元，用于根据上述至少部分样本图像中的每一个与输入图像之间的相似度，在上述至少部分样本图像中选择至少一个样本图像作为输入图像的相似图像；提取单元，用于在上述相似图像的文本描述中提取至少一个关键词；以及处理单元，用于使用上述至少一个关键词来进行检索，获得检索结果。

上述图像处理装置，其通过在预定的数据库中获得输入图像的相似图像，并利用从相似图像的文本描述所提取的关键词来进行检索，从而获得与输入图像有关的检索结果。该图像处理装置在进行处理的过程中，不仅利用了输入图像本身，还利用了与输入图像有关的相似图像的文本描述，也即语义信息，使得检索到的结果能够与输入图像更加匹配，从而能够提高诸如图像检索之类的图像处理的精度。

如图1所示，根据本发明的实施例的图像处理装置100包括第一计算单元110、选择单元120、提取单元130和处理单元140。

如图1所示，第一计算单元110可以接收例如来自用户的输入图像，并计算该输入图像与预定的样本图像集中每个样本图像之间的相似度。其中，上述输入图像例如可以是手机拍摄的地标图像，或者美食图像，等等。此外，这里所说的“预定的样本图像集”例如可以是包括多个样本图像的预定图像数据库中的所有样本图像，也可以是该预定图像数据库中的部分样本图像(例如任选其中的一部分，或者选择某个一级分类下的所有样本图像，等等)。此外，这里所说的样本图像是带有文本描述的图像，其中，文本描述例如可以是标签信息。例如，一个样本图像可以是标签为“长城”的图像。

在根据本发明的实施例的图像处理装置100的一种实现方式中，上述“包括多个样本图像的预定图像数据库”例如可以来自网络服务器(例如，通过Flickr、Facebook和/或Twitter等网站获得的具有文本描述或者标注的图像)或本地其他设备，也即，第一计算单元110从外部接收这些样本图像。此外，在根据本发明的实施例的图像处理装置100的另一种实现方式中，上述“包括多个样本图像的预定图像数据库”也可以存储在图像处理装置100内。

通过第一计算单元110的计算，可以获得上述“包括多个样本图像的预定图像数据库中”的至少部分样本图像中的每个样本图像与输入图像之间的相似度，根据获得的相似度，选择单元120可以在上述“至少部分样本图像”中选择其中与输入图像相似的一个或多个样本图像，来作为输入图像的相似图像。

需要说明的是，上述“至少部分样本图像中的每个样本图像与输入图像之间的相似度”可以仅包括视觉相似度，或者可以同时包括视觉相似度和附加信息相似度。下面结合图2和图3来详细描述第一计算单元110的一个具体示例。

图2是示意性地示出如图1所示的第一计算单元110的一种可能的示例结构的框图。如图2所示，在该示例中，第一计算单元110可以包括第一计算子单元210和第二计算子单元220。

在该示例中，第一计算子单元210可以用于计算上述“至少部分样本图像中的每个样本图像”与输入图像之间的视觉相似度。其中，视觉相似度可以只包括内容相似度，或者也可以同时包括内容相似度和几何相似度。下文中，将结合图3来描述如何利用第一计算子单元210来计算视觉相似度。

此外，在该示例中，输入图像和上述“至少部分样本图像中的每个样本图像”均具有各自的附加信息。由此，第二计算子单元220可以用于计算上述“至少部分样本图像中的每个样本图像”的附加信息与输入图像的附加信息之间的附加信息相似度。在一个例子中，上述“至少部分样本图像中的每个样本图像”的附加信息可以包括与该样本图像有关的地理位置信息(如该样本图像的上传位置和/或拍摄位置等)和/或时间信息(如该样本图像的上传时间和/或拍摄时间等)；以及输入图像的附加信息可以包括与输入图像有关的地理位置信息(如输入图像的上传位置和/或拍摄位置等)和/或时间信息(如输入图像的上传时间和/或拍摄时间等)。此外，附加信息相似度例如是指上述“与该样本图像有关的地理位置信息”和上述“与输入图像有关的地理位置信息”之间的匹配程度(例如，两个地理位置是否在一定距离之内)，以及/或上述“与该样本图像有关的时间信息”和上述“与输入图像有关的时间信息”之间的匹配程度(例如，时间间隔是否在一定范围内)。

由此，通过第一计算子单元210和第二计算子单元220可以获得上述“至少部分样本图像中的每个样本图像”与输入图像之间的视觉相似度和附加信息相似度。

在一个例子中，选择单元120可以在上述“至少部分样本图像”中选择与输入图像之间的视觉相似度高于第一预设阈值、以及与输入图像之间的附加信息相似度高于第二预设阈值的那些样本图像来作为输入图像的相似图像。

在另一个例子中，选择单元120可以在上述“至少部分样本图像”中选择与输入图像之间的视觉相似度和附加信息相似度的加权和高于第三预设阈值的那些样本图像来作为输入图像的相似图像。

此外，在其他例子中，也可以选择与输入图像之间的视觉相似度和附加信息相似度的加权和最高的前K₀个样本图像来作为输入图像的相似图像。

需要说明的是，在根据本发明的实施例的图像处理装置100的其他实现方式中，第一计算单元110也可以不包含第二计算子单元220。在这种情况下，第一计算单元110仅包含第一计算子单元210，通过第一计算子单元210获得上述“至少部分样本图像中的每个样本图像”与输入图像之间的视觉相似度，选择单元120可以在上述“至少部分样本图像”中选择与输入图像之间的视觉相似度高于第四预设阈值的那些样本图像来作为输入图像的相似图像。

下面，结合图3来描述通过第一计算子单元210来计算上述“至少部分样本图像中的每个样本图像”与输入图像之间的视觉相似度的一个示例。其中，图3是示意性地示出如图2所示的第一计算子单元210的一种可能的示例结构的框图。

如图3所示，在根据本发明的实施例的图像处理装置100的一个实现方式中，第一计算子单元210可以包括第一计算模块310、第二计算模块320和第一确定模块330。

其中，第一计算模块310可以用于计算上述“至少部分样本图像中的每个样本图像”与输入图像之间的内容相似度，第二计算模块320可以用于计算上述“至少部分样本图像中的每个样本图像”与输入图像之间的几何相似度，以及第一确定模块330可以用于将上述“至少部分样本图像中的每个样本图像”与输入图像之间的内容相似度和几何相似度的加权和(例如，二者的权值均为1)确定为该样本图像与输入图像之间的视觉相似度。

下面结合图3详细描述第一计算模块310的一个示例。

如图3所示，第一计算模块310可以包括第一提取子模块311、第二提取子模块312、第四计算子模块316、第五计算子模块317、第六计算子模块318、第一计算子模块313、第二计算子模块314和第三计算子模块315。

其中，第一提取子模块311可以在输入图像中提取至少一个输入特征区域，以及第二提取子模块312可以在上述“至少部分样本图像中的每个样本图像”中分别提取至少一个样本特征区域。在一个例子中，例如可以提取输入图像和样本图像各自的最稳定极值区域(Maximally Stable Extremal Regions，MSER)来分别作为输入特征区域和样本特征区域。最稳定极值区域具有很好的仿射不变性，并且对光线变化不敏感，处理效果较好。需要注意的是，对于各个样本图像所提取的样本特征区域的数量不必全部相同，可以全部或部分地不同；此外，对某一个样本图像所提取的样本特征区域的数量也可以与所提取的输入特征区域的数量相同或不同。

此外，第一计算子模块313可以用于根据输入图像的每个输入特征区域与上述“至少部分样本图像”所包括的所有样本特征区域中的每一个样本特征区域之间的距离，来确定上述每个输入特征区域在上述“至少部分样本图像中的每个样本图像”中的匹配区域。

其中，为了确定上述匹配区域，例如可以通过第四计算子模块316、第五计算子模块317和第六计算子模块318来获得上述输入图像的每个输入特征区域与上述“至少部分样本图像”所包括的所有样本特征区域中的每一个样本特征区域之间的距离。在这种情况下，第一提取子模块311还被配置成在输入图像的每个输入特征区域中提取至少一个输入特征点，以及第二提取子模块312还被配置成在上述“至少部分样本图像中的每个样本图像”的每个样本特征区域中分别提取至少一个样本特征点。类似地，对不同样本特征区域所分别提取的样本特征点的数目也不必全部相同，可以全部或部分地不同；此外，针对某一个样本特征区域所提取的样本特征点的数目也可以与针对某一个输入特征区域所提取的输入特征点的数目相同或不同。其中，输入特征点以及样本特征点的提取可以采用诸如SIFT、Harris角点或物体边缘采样点等方法来实现。此外，输入特征点以及样本特征点例如可以采用SIFT描述符或Shape Context描述符等描述。

如图3所示，第四计算子模块316可以计算每个输入特征区域中的每个输入特征点和每个样本特征区域中的每个样本特征点之间的距离。也即，针对输入图像的每个输入特征区域、以及上述“至少部分样本图像中的每个样本图像”中的每一个样本特征区域，第四计算子模块316可以计算该输入特征区域中的每个输入特征点与该样本特征区域中的每个样本特征点之间的距离。例如，利用输入特征点和样本特征点各自的描述来计算二者之间的距离。

根据第四计算子模块316的计算结果，第五计算子模块317可以确定输入图像的每个输入特征区域的每个输入特征点在上述“至少部分样本图像中的每个样本图像”中的每一个样本特征区域中的匹配点。在一个例子中，以任一输入特征区域的任一输入特征点P1为例，为了获得该输入特征点在上述“至少部分样本图像”中的某个样本图像中的某个样本特征区域R2中的匹配点，可以根据第四计算子模块316所计算的输入特征点P1与样本特征区域R2中每点之间的距离，确定输入特征点P1在样本特征区域R2中的最近邻点和次近邻点。如果输入特征点P1与其最近邻点之间的距离D1和输入特征点P1与其次近邻点之间的距离D2之比D1/D2小于第五预设阈值，则将输入特征点P1的最近邻点确定为输入特征点P1的匹配点(也即，输入特征点P1与其最近邻点相匹配)；否则，放弃输入特征点P1(也即，在样本特征区域R2中不存在输入特征点P1的匹配点)。此外，在另一个例子中，也可以将样本特征区域R2中的与输入特征点P1之间的距离最小的那个样本特征点确定为输入特征点P1的匹配点。

然后，针对输入图像的每个输入特征区域、以及上述“至少部分样本图像中的每个样本图像”中的每一个样本特征区域，第六计算子模块318可以根据该输入特征区域的每个输入特征点与其在该样本特征区域中的匹配点之间的距离来计算该输入特征区域与该样本特征区域之间的距离。

在一种实现方式中，可以将该输入特征区域的各个输入特征点与其各自在该样本特征区域中的匹配点之间的距离的平均值作为该输入特征区域与该样本特征区域之间的距离。例如，针对某输入特征区域R1和某样本特征区域R2，若输入特征区域R1内共包含P_A、P_B和P_C三个输入特征点，上述输入特征点P_A、P_B和P_C各自在样本特征区域R2的匹配点分别是P’_A、P’_B和P’_C，P_A与P’_A的距离为d_A，P_B与P’_B的距离为d_B,以及P_C与P’_C的距离为d_C。则输入特征区域R1与样本特征区域R2之间的距离可以为(d_A+d_B+d_C)/3。

通过以上描述可知，通过例如第四计算子模块316、第五计算子模块317和第六计算子模块318的计算和处理，可以获得输入图像的每个输入特征区域与上述“至少部分样本图像”所包括的所有样本特征区域中的每一个样本特征区域之间的距离。如上所述，根据这些距离，第一计算子模块313即可确定上述每个输入特征区域在上述“至少部分样本图像中的每个样本图像”中的匹配区域(如上文所述的与输入特征区域距离最小的那个样本区域)。

在根据本发明的实施例的图像处理装置100的一种实现方式中，以任一个输入特征区域R1为例，为了获得输入特征区域R1在上述“至少部分样本图像”中的某个样本图像S’中的匹配区域，可以根据输入特征区域R1与样本图像S’中每个样本区域之间的距离，确定输入特征区域R1样本图像S’中的最近邻区域和次近邻区域。如果输入特征区域R1与其最近邻区域之间的距离D1’和输入特征区域R1与其次近邻区域之间的距离D2’之比D1’/D2’小于第六预设阈值，则将输入特征区域R1的最近邻区域确定为输入特征区域R1的匹配区域(也即，输入特征点区域R1与其最近邻区域相匹配)；否则，放弃输入特征区域R1(也即，在样本图像S’中不存在输入特征区域R1的匹配区域)。此外，在根据本发明的实施例的图像处理装置100的另一种实现方式中，也可以将样本图像S’中的与输入特征区域R1之间的距离最小的那个样本区域确定为输入特征区域R1的匹配区域。

本领域的技术人员应当理解，其他可以用来描述及确定输入图像的每个输入特征区域与上述“至少部分样本图像”所包括的所有样本特征区域中的每一个样本特征区域之间的距离的方法也可以为本发明所用，在此不再详述。需要注意的是，在使用其他方法来计算输入图像的每个输入特征区域与上述“至少部分样本图像”所包括的所有样本特征区域中的每一个样本特征区域之间的距离的其他实现方式中，第一计算模块310可以不包括第四计算子模块316、第五计算子模块317和第六计算子模块318，而可以通过其他相应模块来计算获得上述距离。

由此，针对上述“至少部分样本图像中的每个样本图像”，可以获知输入图像中各个输入特征区域分别在该样本图像中的匹配区域，以及上述各个输入特征区域与其各自在该样本图像中的匹配区域之间的距离，根据以上信息，可以通过第二计算子模块314来获得输入图像与上述“至少部分样本图像中的每个样本图像”之间的距离。在一种实现方式中，可以将输入图像的各个输入特征区域与其各自在该样本图像中的匹配区域之间的距离的平均值作为输入图像与该样本图像之间的距离，该计算过程与上文中计算输入特征区域与样本特征区域之间的距离的方法相类似，在此不再详细描述。此外，在根据本发明的实施例的图像处理装置100的其他实现方式中，也可以采用其他方法来计算输入图像和样本图像之间的距离。

于是，利用第二计算子模块314的计算结果，第三计算子模块315可以通过计算来获得输入图像与上述“至少部分样本图像中的每个样本图像”之间的内容相似度。例如，在一个实现方式中，可以直接将第二计算子模块314所计算的输入图像和样本图像之间的距离作为输入图像和样本图像之间的内容相似度；或者，在其他实现方式中，也可以使用上述距离所得到的例如距离的平方或其他变形来作为输入图像和样本图像之间的内容相似度；等等。

由此，通过上述示例的第一计算模块310可以获得上述“至少部分样本图像中的每个样本图像”与输入图像之间的内容相似度。

在上述结合图3来描述的根据本发明的实施例的图像处理装置100的示例中(包括子模块316-318的情况)，通过如图3所示示例结构的第一计算模块310能够实现分级匹配，也即，在区域级基于特征点进行点点匹配，以及在图像级基于区域进行区域与区域的匹配。与在图像级基于特征点进行点点匹配的传统技术相比，利用该示例的图像处理装置100的第一计算模块310所计算的图像与图像之间的内容相似度具有相对更高的精度，并且计算过程更加高效，从而能够使得利用该示例的图像处理装置100所进行的图像处理的准确度更高，更加高效。

下面结合图3详细描述如何利用第二计算模块320来获得上述“至少部分样本图像中的每个样本图像”与输入图像之间的几何相似度。

在根据本发明的实施例的图像处理装置100的一个示例中，如图3所示，第二计算模块320可以包括第一构建子模块321、第二构建子模块322以及第七计算子模块323。

其中，第一构建子模块321可以根据输入图像的各个输入特征区域在输入图像中的位置关系，按照第一预定方位顺序(例如，从左到右、从右到左、从上到下或从下到上等顺序)、使用预定字符集中的前M1个字符对上述各个输入特征区域依次进行标注。其中，M1为输入图像所包含的输入特征区域的数量。此外，预定字符集例如可以是正整数集或字母集等，其中，上述预定字符集中的字符各不相同。

例如，如图4所示，S1为包括4个输入特征区域的输入图像，使用正整数集的前4个(即，1、2、3和4)以上述方式(例如，按从左到右的顺序)对上述各输入特征区域进行标注的结果如图所示。

然后，第一构建子模块321可以使用上述前M1个字符、并按照上述各个输入特征区域的标注次序来构建第一字符串。例如，如图4所示，在该示例中按照上述方式所构建的第一字符串为“1234”。

此外，针对上述“至少部分样本图像中的每个样本图像”，第二构建子模块322可以根据该样本图像中的各个样本特征区域在该样本图像中的位置关系，按照上述第一预定方位顺序、使用上述预定字符集中的前M2个字符对该样本图像中的各个样本特征区域进行标注。其中，M2为该样本图像所包含的样本特征区域的数量，且M2可以等于、大于或小于M1。

例如，如图4所示，S2为上述“至少部分样本图像”中的包括5个样本特征区域的某个样本图像，使用正整数集的前5个(即，1、2、3、4和5)以上述方式(在该例子中为按从左到右的顺序)对上述各样本特征区域进行标注的结果如图所示。

然后，选择该样本图像中的M2个样本特征区域中的、被确定为任一输入特征区域的匹配区域的M2’个样本特征区域，其中，M2’小于等于M2，通过第二构建子模块322使用上述M2’个样本特征区域对应的M2’个字符、并按照这M2’个样本特征区域各自所匹配的输入特征区域的标注次序，来构建该样本图像的第二字符串。例如，在该示例中，如图4所示，输入特征区域“1”匹配于样本特征区域“5”，输入特征区域“2”匹配于样本特征区域“2”，输入特征区域“3”匹配于样本特征区域“3”，输入特征区域“4”匹配于样本特征区域“4”，而样本特征区域“1”未与任何输入特征区域相匹配。由于各输入特征区域的先后标注次序为输入特征区域“1”、输入特征区域“2”、输入特征区域“3”和输入特征区域“4”，因此，在该示例中，按照上述方式所构建的第二字符串为“5234”。

这样，第七计算子模块323可以计算上述“至少部分样本图像中的每个样本图像”对应的第二字符串与输入图像对应的第一字符串之间的相似度(例如，可以是归一化的相似度)，来作为该样本图像与输入图像之间的几何相似度。在一个具体实现方式中，第一字符串和第二字符串之间的相似度例如可以采用二者之间的几何一致性来表达，该二者之间的几何一致性例如可以采用现有的任一种能够计算字符串之间的几何一致性的方法来实现。

例如，在上述结合图4所描述的例子中，第一字符串为“1234”，第二字符串为“5234”，容易获得，字符串“1234”与“5234”之间的归一化的几何一致性为0.75，因此，样本图像S2与输入图像S1之间的几何相似度可以为0.75。

需要说明的是，在根据本发明的实施例的图像处理装置100的其他实现方式中，第一计算子单元210也可以不包括第二计算模块320和第一确定模块330。在这种情况下，第一计算子单元210仅包含第一计算模块310，其通过第一计算模块310计算获得上述“至少部分样本图像中的每个样本图像”与输入图像之间的内容相似度，并将所计算的内容相似度最终确定为该样本图像与输入图像之间的视觉相似度。

转至图1，如上所述，通过第一计算单元110和选择单元120的处理，可以在上述“至少部分样本图像中的每个样本图像”中选择至少一个样本图像来作为输入图像的相似图像。

接下来，可以利用提取单元130来在上述相似图像的文本描述中提取至少一个关键词。在根据本发明的实施例的图像处理装置100的一个实现方式中，如果某相似图像带有标签信息，则可以直接利用；否则，若某相似图像不具有标签信息，则可以采用现有的文本数据处理方法来从该相似图像的文本描述(如网页内容中)提取到关于该图像的标签信息。然后，利用提取单元130在选择单元120所选择的各个相似图像的标签信息中提取至少一个关键词，以用于检索。

例如，可以使用统计频率的方法来获得上述至少一个关键词。在一个例子中，可以在上述各个相似图像的标签信息中选择其中出现频率最高的前N个词，来作为用于检索的关键词，其中，N为正整数。在另一个例子中，可以选择出现频率高于第七预设阈值的那些词来作为用于检索的关键词。

需要注意的是，上述第一至第七预设阈值可以各不相同，也可以部分或全部相同。此外，上述第一至第七预设阈值可以根据经验值来设定，或者也可以通过试验的方法来获得，这里省略其描述。

举例来说，假设选择与输入图像之间的视觉相似度和附加信息相似度的加权和最高的前5个样本图像来作为输入图像的相似图像，该5个相似图像的标签信息例如分别为：

{golden,gate,bridge}，

{Sanfrancisco,California,ca,bridge,traffic}，

{favorite,Sanfrancisco,bridge,golden,gate}，

{usa,California,presidio,golden,bridge,gate}，以及

{golden,river,sight,2006,bridge}。

统计这5个相似图像的标签信息中各词的出现频率，得到的结果如下：“bridge”出现5次，“golden”出现4次，“gate”出现3次，“Sanfrancisco”出现2次，“California”出现2次，“ca”、“traffic”以及“favorite”等其他词均分别各出现1次。若N＝3，也即，取出现频率最高的前3个词来作为用于检索的关键词，则所获得的关键词为：

“bridge”、“golden”以及“gate”。

在一个例子中，可以利用自动标注技术将获得的这些关键词作为标签赋予输入图像，以用于检索或其他用途。

然后，处理单元140可以使用上述至少一个关键词来进行检索，以获得与输入图像有关的检索结果。例如，在上述例子中，输入包含“bridge”、“golden”以及“gate”中的一个或多个的各种组合的检索式来进行网络检索，可以获得与这三个关键词相关的网页，这些网页中可能含有图像，也可能没有。

为了进一步提高检索结果与输入图像的相关程度，在根据本发明的实施例的图像处理装置的另一种实现方式中，图像处理装置还可以包括用于对检索结果进行排序的单元。

图5是示意性地示出根据本发明的实施例的图像处理装置的另一种示例结构的框图。如图5所示，图像处理装置500除了包括第一计算单元510、选择单元520、提取单元530和处理单元540之外，还包括第二计算单元550和排序与输出单元560。

其中，图像处理装置500中的第一计算单元510、选择单元520、提取单元530和处理单元540可以具有与上文中结合图1-3所描述的图像处理装置100中所包括的对应单元相同的结构和功能，并能达到类似的技术效果，在此不再赘述。

如图5所示，第二计算单元550可以用于计算每个检索结果与输入图像之间的相似度，排序与输出单元560可以按照检索结果与输入图像之间的相似度的高低顺序来对检索结果排序，并输出排序后的检索结果。其中，排序与输出单元560可以输出全部的检索结果，也可以只输出排在前面的部分检索结果，可以根据实际需要来设定。

图6是示意性地示出如图5所示的第二计算单元550的一种可能的示例结构的框图。如图6所示，第二计算单元550可以包括第三计算子单元610和第四计算子单元620中的至少一个。下面，以第二计算单元550同时包括第三计算子单元610和第四计算子单元620的情况为例来进行描述，第二计算单元550只包括第三计算子单元610或第四计算子单元620的情况容易根据以下描述获知，不再赘述。

如图6所示，第二计算单元550所计算的相似度例如可以包括视觉相似度和语义相似度。也即，第三计算子单元610用于计算每个检索结果与输入图像之间的视觉相似度，第四计算子单元620用于计算每个检索结果与输入图像之间的语义相似度。

其中，可以采用类似于上文所述的第一计算子单元210的结构和功能处理来计算每个检索结果与输入图像之间的视觉相似度。

与上文相类似地，如图7所示，第三计算子单元610可以包括第三计算模块710、第四计算模块720和第二确定模块730。其中，第三计算模块710用于计算每个检索结果与输入图像之间的内容相似度；第四计算模块720用于计算每个检索结果与输入图像之间的几何相似度；以及第二确定模块730用于将每个检索结果与输入图像之间的内容相似度和几何相似度的加权和确定为该检索结果与所述输入图像之间的视觉相似度。其中，权值例如可以均为1，或者也可以根据经验或通过试验的方式来确定。

在根据本发明的实施例的图像处理装置的一个实现方式中，第三计算模块710可以包括第三提取子模块711、第八计算子模块712、第九计算子模块713和第十计算子模块714，以及还可以选择性地包括第十一计算子模块715、第十二计算子模块716和第十三计算子模块717。

下面以第三计算模块710同时包括上述各子模块711～717的情况为例来进行描述，第三计算模块710不包含子模块715～716的情况容易参考上文所述内容以及以下描述获知，不再赘述。

在该实现方式中，第三提取子模块711可以在每个检索结果所包含的每个图像中提取至少一个结果特征区域。需要说明的是，检索结果(例如网页)所包含的图像可能多于1幅，因此，在计算某一个检索结果与输入图像之间的相似度的时候，可以分别计算其中所包含的各个图像与输入图像之间的相似度，再通过对其中所包含的各个图像与输入图像之间的相似度进行例如加权求和的方式来最终获得该检索结果与输入图像之间的相似度。

第八计算子模块712可以根据输入图像的每个输入特征区域与每个检索结果所包含的每个图像的每个结果特征区域之间的距离，确定每个输入特征区域在每个检索结果所包含的每个图像中的匹配区域。

其中，“输入图像的每个输入特征区域与每个检索结果所包含的每个图像的每个结果特征区域之间的距离”例如可以通过子模块715～717来获得。在这种情况下，第三提取子模块711还被配置成在每个检索结果所包含的每个图像的每个结果特征区域中分别提取至少一个结果特征点。

此外，在输入图像的输入特征区域及输入特征点已经通过上文所述的结构和方式获得的情况下，第十一计算子模块715可以针对输入图像的每个输入特征区域、以及每个检索结果所包含的每个图像的每个结果特征区域，根据输入特征点的描述和结果特征点的描述，计算该输入特征区域中的每个输入特征点与该结果特征区域中的每个结果特征点之间的距离。这里，结果特征点也可以采用上文所述的描述方式。

第十二计算子模块716可以根据第十一计算子模块715的计算结果，确定输入图像的每个输入特征区域的每个输入特征点在每个检索结果所包含的每个图像的每个结果特征区域中的匹配点。

第十三计算子模块717可以针对输入图像的每个输入特征区域、以及每个检索结果所包含的每个图像的每个结果特征区域，根据该输入特征区域的各输入特征点与其各自在该结果特征区域中的匹配点之间的距离，计算该输入特征区域与该结果特征区域之间的距离。

其中，子模块715～717的一些具体计算细节和处理示例例如可以参考上文中结合图3所描述的子模块316～318的计算细节和处理过程，在此省略其细节和处理过程的描述。

如图7所示，第九计算子模块713可以根据输入图像的每个输入特征区域与其在每个检索结果所包含的每个图像中的匹配区域之间的距离，计算获得输入图像与每个检索结果所包含的每个图像之间的距离。然后，第十计算子模块714可根据输入图像与每个检索结果所包含的各个图像之间的距离，获得输入图像与每个检索结果所包含的各个图像之间的内容相似度，进而获得输入图像与每个检索结果之间的内容相似度。例如，针对其中包含3个图像的某个检索结果，可以获得这3个图像各自与输入图像之间的内容相似度，再将这三个内容相似度进行加权求和后，将所得的和作为该检索结果与输入图像之间的内容相似度。

需要说明的是，在其他实现方式中，第三计算模块710可以不包括上述子模块715～717，而可以通过其他组件或方式来获得上述“输入图像的每个输入特征区域与每个检索结果所包含的每个图像的每个结果特征区域之间的距离”，在此省略其详细描述。

此外，在根据本发明的实施例的图像处理装置的一个实现方式中，第四计算模块720可以包括第三构建子模块721和第十四计算子模块722。

在输入图像所对应的第一字符串已经通过上文所述的结构和方式获得的情况下，第三构建子模块721可以针对每个检索结果所包含的每一个图像执行如下处理：根据该图像中的每个结果特征区域在该图像中的位置关系，按照与上文所述的第一预定方位顺序、使用上文所述的预定字符集中的前M3个字符对该图像中的各个结果特征区域进行标注；使用该图像中的M3个结果特征区域中的、被确定为任一输入特征区域的匹配区域的M3’个结果特征区域对应的字符，并按照上述M3’个结果特征区域各自所匹配的输入特征区域的标注次序，来构建该图像所对应的第三字符串。其中，M3为该图像所包含的结果特征区域的数量，M3可以大于、等于或小于M1。此外，M3’小于或等于M3。

如此，第十四计算子模块722可以计算每个检索结果所包含的每个图像所对应的第三字符串与输入图像所对应的第一字符串之间的相似度，来作为该图像与输入图像之间的几何相似度。与上文类似地，第十四计算子模块722可以根据每个检索结果所包含的各个图像与输入图像之间的几何相似度，例如通过上文所述的方式来获得该检索结果与所述输入图像之间的几何相似度，在此不再详述。

其中，第三构建子模块721和第十四计算子模块722的一些具体计算细节和处理示例可参考上文结合图3所描述的第二构建子模块322和第七计算子模块323的计算和处理过程，在此省略其细节和示例的描述。

需要说明的是，在根据本发明的实施例的图像处理装置的其他实现方式中，第三计算子单元610也可以只包括第三计算模块710。也即，在这种情况下，第三计算子单元610将第三计算模块710所计算的每个检索结果与输入图像之间的内容相似度确定为每个检索结果与输入图像之间的视觉相似度，而不再考虑其他类型的视觉相似度(例如，几何相似度)。

此外，如图6所示，第二计算单元550中的第四计算子单元620可以被配置成能够执行如下处理：将提取单元530所提取的至少一个关键词中的至少部分关键词确定为输入图像的语义信息，以及根据每个检索结果所包含的文本信息与输入图像的上述语义信息之间的相关性，获得每个检索结果与输入图像之间的语义相似度。其中，每个检索结果所包含的文本信息与输入图像的语义信息的相关性例如可以采用现有的计算文本相关性的方法来获得。

举例来说，将输入图像的语义信息记为集合C1，将从某个检索结果中所包括的文本信息所提取到的关键词集合记为集合C2，集合C1和C2之间的语义相似度例如可以为C1和C2的交集元素个数与C1和C2的并集元素个数的比值。例如，C1＝{bridge,golden,gate}，C2＝{favorite,Sanfrancisco,bridge,golden,gate}，则这两个集合的交集有3个元素，并集有5个元素，因此，二者的语义相似度为0.6。

通过以上描述可知，根据本发明的实施例的上述图像处理装置，通过在预定数据库中获得输入图像的相似图像，并利用相似图像的文本描述，能够将图像输入转变为关键字输入，进而实现诸如网络检索等处理。传统的诸如视觉搜索、图像检索等处理技术，仅利用了图像的视觉特征，而根据本发明的实施例的上述图像处理装置，可以利用与输入图像有关的相似图像的文本描述，使得检索到的结果能够与输入图像更加匹配，从而能够提高诸如图像检索之类的图像处理的精度，还可以使得处理更加省时和高效。

此外，根据本发明的一些实施例的图像处理装置能够基于视觉和/或语义相似度对检索结果进行重排序，由此可以使得检索结果和输入图像在视觉和/或语义上具有良好的相似性，进而能够提供给用户更加准确的输出结果。

此外，本发明的实施例还提供了一种图像处理方法，下面结合图8来描述该图像处理方法的一种示例性处理。

图8是示意性地示出根据本发明的图像处理方法的一种示例性处理的流程图。

如图8所示，根据本发明的实施例的图像处理方法的处理流程800开始于步骤S810，然后执行步骤S820。

在步骤S820中，计算多个样本图像中的至少部分样本图像中的每一个与输入图像之间的相似度，其中，上述多个样本图像中的每一个均具有文本描述。然后执行步骤S830。

在一个例子中，上述“至少部分样本图像中的每个样本图像与输入图像之间的相似度”可以是该样本图像与输入图像之间的视觉相似度。

在另一个例子中，上述“至少部分样本图像中的每个样本图像与输入图像之间的相似度”可以是该样本图像与输入图像之间的视觉相似度和该样本图像的附加信息与输入图像的附加信息之间的附加信息相似度的加权和。其中，在该例子中，输入图像和上述“至少部分样本图像中的每个样本图像”均具有各自的附加信息。例如，样本图像的附加信息可以包括与样本图像有关的地理位置信息和/或时间信息；输入图像的附加信息包括与输入图像有关的地理位置信息和/或时间信息。上述附加信息相似度例如可以通过执行上文中结合图2所描述的第二计算子单元220的示例处理来获得，在此省略其描述。

此外，在上述两个例子中，上述视觉相似度例如可以是内容相似度，或者也可以是内容相似度和几何相似度的加权和。其中，视觉相似度例如可以通过执行上文中结合图2和图3所描述的第一计算子单元210的示例处理来获得，内容相似度例如可以通过执行上文中结合图3所描述的第一计算模块310的示例处理来获得，几何相似度例如可以通过执行上文中结合图3所描述的第二计算模块320的示例处理来获得，在此均省略这些处理的详细描述。

在步骤S830中，根据上述至少部分样本图像中的每一个与输入图像之间的相似度，在上述至少部分样本图像中选择至少一个样本图像作为输入图像的相似图像。然后执行步骤S840。

在步骤S840中，在上述相似图像的文本描述中提取至少一个关键词。然后执行步骤S850。

在步骤S850中，使用所述至少一个关键词来进行检索，获得检索结果。然后执行步骤S860。

在一个例子中，所获得的检索结果例如是按照检索结果与输入图像之间的视觉相似度的高低顺序进行排序的。

在另一个例子中，所获得的检索结果可以是按照检索结果与输入图像之间的视觉相似度与语义相似度的加权和的高低顺序进行排序的。

其中，检索结果与输入图像之间的语义相似度可以通过如下方式来获得：将所提取的至少一个关键词作为所述输入图像的语义信息；以及根据每个检索结果所包含的文本信息与输入图像的语义信息之间的相关性，获得所述每个检索结果与所述输入图像之间的语义相似度。检索结果与输入图像之间的语义相似度的示例处理可以参考上文中结合图6所描述的第四计算子单元620的示例处理。

此外，在上述两个例子中，检索结果与输入图像之间的视觉相似度例如可以通过执行上文中结合图5所描述的第二计算单元550的示例处理来获得。

处理流程800结束于步骤S860。

通过以上描述可知，根据本发明的实施例的上述图像处理方法，通过在预定数据库中获得输入图像的相似图像，并利用相似图像的文本描述，能够将图像输入转变为关键字输入，进而实现诸如网络检索等处理。传统的诸如视觉搜索、图像检索等处理技术，仅利用了图像的视觉特征，而根据本发明的实施例的上述图像处理装置，可以利用与输入图像有关的相似图像的文本描述，使得检索到的结果能够与输入图像更加匹配，从而能够提高诸如图像检索之类的图像处理的精度，还可以使得处理更加省时和高效。

此外，根据本发明的一些实施例的图像处理方法能够基于视觉和/或语义相似度对检索结果进行重排序，由此可以使得检索结果和输入图像在视觉和/或语义上具有良好的相似性，进而能够提供给用户更加准确的输出结果。

此外，本发明的实施例还提供了一种电子设备，该电子设备被配置包括如上所述的图像处理装置。该电子设备例如可以是以下设备中的任意一种：手机；计算机；平板电脑；以及个人数字助理等。该电子设备能够拥有如上所述的图像处理装置的有益效果和优点。

上述根据本发明的实施例的图像处理装置中的各个组成单元、子单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的机器(例如图9所示的通用机器900)安装构成该软件或固件的程序，该机器在安装有各种程序时，能够执行上述各组成单元、子单元的各种功能。

图9是示出了可用来实现根据本发明的实施例的图像处理装置和图像处理方法的一种可能的信息处理设备的硬件配置的结构简图。

在图9中，中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM 903中，还根据需要存储当CPU 901执行各种处理等等时所需的数据。CPU 901、ROM 902和RAM 903经由总线904彼此连接。输入/输出接口905也连接到总线904。

下述部件也连接到输入/输出接口905：输入部分906(包括键盘、鼠标等等)、输出部分907(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分908(包括硬盘等)、通信部分909(包括网络接口卡例如LAN卡、调制解调器等)。通信部分909经由网络例如因特网执行通信处理。根据需要，驱动器910也可连接到输入/输出接口905。可拆卸介质911例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器910上，使得从中读出的计算机程序可根据需要被安装到存储部分908中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质911安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图9所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 902、存储部分908中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

此外，本发明还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时，可执行上述根据本发明的实施例的图像处理方法。相应地，用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本发明的公开中。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

此外，本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

此外，显然，根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本发明的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时，只要该系统或者设备具有执行程序的功能，则本发明的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，客户计算机通过连接到因特网上的相应网站，并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本发明。

最后，还需要说明的是，在本文中，诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

综上，在根据本发明的实施例中，本发明提供了如下方案：

附记1.一种图像处理装置，包括：

第一计算单元，其被配置用于计算多个样本图像中的至少部分样本图像中的每一个与输入图像之间的相似度，其中，所述多个样本图像中的每一个均具有文本描述；

选择单元，其被配置用于根据所述至少部分样本图像中的每一个与输入图像之间的相似度，在所述至少部分样本图像中选择至少一个样本图像作为所述输入图像的相似图像；

提取单元，其被配置用于在所述相似图像的文本描述中提取至少一个关键词；以及

处理单元，其被配置用于使用所述至少一个关键词来进行检索，获得检索结果。

附记2.根据附记1所述的图像处理装置，其中，所述第一计算单元包括：

第一计算子单元，其被配置用于计算所述至少部分样本图像中的每一个与所述输入图像之间的视觉相似度。

附记3.根据附记2所述的图像处理装置，其中，所述样本图像和所述输入图像均具有各自的附加信息，以及所述第一计算单元还包括：

第二计算子单元，其被配置用于计算所述至少部分样本图像中的每一个的附加信息与所述输入图像的附加信息之间的附加信息相似度。

附记4.根据附记3所述的图像处理装置，其中，

所述至少部分样本图像中的每一个的附加信息包括与该样本图像有关的地理位置信息和/或时间信息；以及

所述输入图像的附加信息包括与所述输入图像有关的地理位置信息和/或时间信息。

附记5.根据附记2-4中任一所述的图像处理装置，其中，所述第一计算子单元包括第一计算模块，所述第一计算模块被配置用于计算所述至少部分样本图像中的每一个与所述输入图像之间的内容相似度，所述第一计算模块包括：

第一提取子模块，其被配置用于在所述输入图像中提取至少一个输入特征区域；

第二提取子模块，其被配置用于在所述至少部分样本图像中的每一个中提取至少一个样本特征区域；

第一计算子模块，其被配置用于根据所述输入图像的每个输入特征区域与所述至少部分样本图像所包括的所有样本特征区域中的每一个之间的距离，确定所述每个输入特征区域在所述至少部分样本图像中的每一个中的匹配区域；

第二计算子模块，其被配置用于针对所述至少部分样本图像中的每一个，根据所述输入图像的每个输入特征区域与其在该样本图像中的匹配区域之间的距离，计算所述输入图像与该样本图像之间的距离；以及

第三计算子模块，其被配置用于根据第二计算子模块的计算结果，获得所述输入图像与所述至少部分样本图像中的每一个之间的内容相似度。

附记6.根据附记5所述的图像处理装置，其中，

所述第一提取子模块还被配置用于在所述输入图像的每个输入特征区域中提取至少一个输入特征点；

所述第二提取子模块还被配置用于针对所述至少部分样本图像中的每一个，在该样本图像的每个样本特征区域中提取至少一个样本特征点；以及

所述第一计算模块还包括：

第四计算子模块，其被配置用于针对所述输入图像的每个输入特征区域、和所述至少部分样本图像中的每一个样本图像中的每一个样本特征区域，计算该输入特征区域中的每个输入特征点与该样本特征区域中的每个样本特征点之间的距离，

第五计算子模块，其被配置用于根据所述第四计算子模块的计算结果，确定所述输入图像的每个输入特征区域的每个输入特征点在所述至少部分样本图像中的每一个样本图像的每一个样本特征区域中的匹配点，

第六计算子模块，其被配置用于针对所述输入图像的每个输入特征区域、和所述至少部分样本图像中的每一个样本图像中的每一个样本特征区域，根据该输入特征区域的每个输入特征点与其在该样本特征区域中的匹配点之间的距离，计算该输入特征区域与该样本特征区域之间的距离。

附记7.根据附记6所述的图像处理装置，其中，所述第一计算子单元还包括第二计算模块和第一确定模块，所述第二计算模块被配置用于计算所述至少部分样本图像中的每一个与所述输入图像之间的几何相似度，所述第一确定模块用于将所述至少部分样本图像中的每一个与所述输入图像之间的内容相似度和几何相似度的加权和确定为该样本图像与所述输入图像之间的视觉相似度；以及所述第二计算模块包括：

第一构建子模块，其被配置用于根据所述输入图像的各个输入特征区域在所述输入图像中的位置关系，按照第一预定方位顺序、使用预定字符集中的前M1个字符对所述各个输入特征区域依次进行标注，以及使用所述预定字符集中的前M1个字符、并按照所述各个输入特征区域的标注次序来构建第一字符串，其中，M1为所述输入图像所包含的输入特征区域的数量，且所述预定字符集中的字符各不相同；

第二构建子模块，其被配置用于针对所述至少部分样本图像中的每一个：

根据该样本图像中的各个样本特征区域在该样本图像中的位置关系，按照所述第一预定方位顺序、使用所述预定字符集中的前M2个字符对该样本图像中的各个样本特征区域进行标注，其中，M2为该样本图像所包含的样本特征区域的数量，以及

使用该样本图像中的M2个样本特征区域中的、被确定为任一输入特征区域的匹配区域的M2’个样本特征区域对应的字符，并按照所述M2’个样本特征区域各自所匹配的输入特征区域的标注次序，来构建该样本图像的第二字符串；

第七计算子模块，其被配置用于针对所述至少部分样本图像中的每一个，计算该样本图像的第二字符串与所述第一字符串之间的相似度，来作为该样本图像与所述输入图像之间的几何相似度。

附记8.根据附记1-6中任一所述的图像处理装置，还包括：

第二计算单元，其被配置用于计算所述检索结果中的每一个与所述输入图像之间的相似度；以及

排序与输出单元，其被配置用于按照所述检索结果与所述输入图像之间的相似度的高低对所述检索结果进行排序，以及输出排序后的检索结果。

附记9.根据附记7所述的图像处理装置，还包括：

附记10.根据附记9所述的图像处理装置，其中，所述第二计算单元包括：

第三计算子单元，其被配置用于计算所述检索结果中的每一个与所述输入图像之间的视觉相似度；和/或

第四计算子单元，其被配置用于将所述提取单元所提取的至少一个关键词的至少部分作为所述输入图像的语义信息，并计算所述检索结果中的每一个与所述输入图像之间的语义相似度。

附记11.根据附记10所述的图像处理装置，其中，所述第三计算子单元包括第三计算模块，所述第三计算模块被配置用于计算所述检索结果中的每一个与所述输入图像之间的内容相似度，所述第三计算模块包括：

第三提取子模块，其被配置用于在每个检索结果所包含的每个图像中提取至少一个结果特征区域；

第八计算子模块，其被配置用于根据所述输入图像的每个输入特征区域与每个检索结果所包含的每个图像的每个结果特征区域之间的距离，确定所述每个输入特征区域在每个检索结果所包含的每个图像中的匹配区域；

第九计算子模块，其被配置用于针对每一个检索结果，根据所述输入图像的每个输入特征区域与其在该检索结果所包含的每个图像中的匹配区域之间的距离，计算所述输入图像与该检索结果所包含的每个图像之间的距离；以及

第十计算子模块，其被配置用于针对每一个检索结果，根据所述输入图像与该检索结果所包含的各个图像之间的距离，获得所述输入图像与该检索结果之间的内容相似度。

附记12.根据附记11所述的图像处理装置，其中，

所述第三提取子模块还被配置用于针对每一个检索结果，在该检索结果所包含的每个图像的每个结果特征区域中提取至少一个结果特征点；以及

所述第三计算模块还包括：

第十一计算子模块，其被配置用于针对所述输入图像的每个输入特征区域、和每个检索结果所包含的每个图像的每个结果特征区域，计算该输入特征区域中的每个输入特征点与该结果特征区域中的每个结果特征点之间的距离，

第十二计算子模块，其被配置用于根据所述第十一计算子模块的计算结果，确定所述输入图像的每个输入特征区域的每个输入特征点在所述每个检索结果所包含的每个图像的每个结果特征区域中的匹配点，

第十三计算子模块，其被配置用于针对所述输入图像的每个输入特征区域、和每个检索结果所包含的每个图像的每个结果特征区域，根据该输入特征区域的每个输入特征点与其在该结果特征区域中的匹配点之间的距离，计算该输入特征区域与该结果特征区域之间的距离。

附记13.根据附记10或11所述的图像处理装置，其中，所述第三计算子单元还包括第四计算模块和第二确定模块，所述第四计算模块被配置用于计算每个检索结果与所述输入图像之间的几何相似度，所述第二确定模块用于将每个检索结果与所述输入图像之间的内容相似度和几何相似度的加权和确定为该检索结果与所述输入图像之间的视觉相似度；以及所述第四计算模块包括：

第三构建子模块，其被配置用于针对每一个检索结果所包含的每一个图像：

根据该图像中的每个结果特征区域在该图像中的位置关系，按照所述第一预定方位顺序、使用所述预定字符集中的前M3个字符对该图像中的各个结果特征区域进行标注，其中，M3为该图像所包含的结果特征区域的数量，以及

使用该图像中的M3个结果特征区域中的、被确定为任一输入特征区域的匹配区域的M3’个结果特征区域对应的字符，并按照所述M3’个结果特征区域各自所匹配的输入特征区域的标注次序，来构建该图像的第三字符串；

第十四计算子模块，其被配置用于，

针对每一个检索结果所包含的每一个图像，计算该图像所对应的第二字符串与所述第一字符串之间的相似度来作为该图像与所述输入图像之间的几何相似度，以及

针对每一个检索结果，根据该检索结果所包含的各个图像与所述输入图像之间的几何相似度获得该检索结果与所述输入图像之间的几何相似度。

附记14.一种图像处理方法，包括：

计算多个样本图像中的至少部分样本图像中的每一个与输入图像之间的相似度，其中，所述多个样本图像中的每一个均具有文本描述；

根据所述至少部分样本图像中的每一个与所述输入图像之间的相似度，在所述至少部分样本图像中选择至少一个样本图像作为所述输入图像的相似图像；

在所述相似图像的文本描述中提取至少一个关键词；以及

使用所述至少一个关键词来进行检索，获得检索结果。

15.根据附记14所述的图像处理方法，其中，所述至少部分样本图像中的每一个与所述输入图像之间的相似度为以下之一：

该样本图像与所述输入图像之间的视觉相似度；以及

该样本图像与所述输入图像之间的视觉相似度和该样本图像的附加信息与所述输入图像的附加信息之间的附加信息相似度的加权和。

附记16.根据附记15所述的图像处理方法，其中，

所述样本图像的附加信息包括与所述样本图像有关的地理位置信息和/或时间信息；以及

附记17.根据附记15或16所述的图像处理方法，其中，所述样本图像与所述输入图像之间的视觉相似度为以下之一：

所述样本图像与所述输入图像之间的内容相似度；以及

所述样本图像与所述输入图像之间的内容相似度和几何相似度的加权和。

附记18.根据附记17所述的图像处理方法，其中，所述样本图像与所述输入图像之间的内容相似度是通过如下方式获得的：

在所述输入图像中提取至少一个输入特征区域，以及在所述输入图像的每个输入特征区域中提取至少一个输入特征点；

在所述至少部分样本图像中的每一个中提取至少一个样本特征区域，以及在所述至少部分样本图像中的每一个样本图像的每个样本特征区域中提取至少一个样本特征点；

针对所述输入图像的每个输入特征区域、和所述至少部分样本图像中的每一个样本图像中的每一个样本特征区域，

计算该输入特征区域中的每个输入特征点与该样本特征区域中的每个样本特征点之间的距离，并确定该输入特征区域的每个输入特征点在该样本特征区域中的匹配点，以及

根据该输入特征区域的每个输入特征点与其在该样本特征区域中的匹配点之间的距离，计算该输入特征区域与该样本特征区域之间的距离；

根据所述输入图像的每个输入特征区域与所述至少部分样本图像所包括的所有样本特征区域中的每一个之间的距离，确定所述每个输入特征区域在所述至少部分样本图像中的每一个中的匹配区域；

针对所述至少部分样本图像中的每一个，根据所述输入图像的每个输入特征区域与其在该样本图像中的匹配区域之间的距离，计算所述输入图像与该样本图像之间的距离；以及

根据所述至少部分样本图像中的每一个与所述输入图像之间的距离，获得所述至少部分样本图像中的每一个与所述输入图像之间的内容相似度。

附记19.根据附记17或18所述的图像处理方法，其中，所述样本图像与所述输入图像之间的几何相似度是通过如下方式获得的：

根据所述输入图像的各个输入特征区域在所述输入图像中的位置关系，按照第一预定方位顺序、使用预定字符集中的前M1个字符对所述各个输入特征区域依次进行标注，以及使用所述预定字符集中的前M1个字符、并按照所述各个输入特征区域的标注次序来构建第一字符串，其中，M1为所述输入图像所包含的输入特征区域的数量，且所述预定字符集中的字符各不相同；以及

针对所述至少部分样本图像中的每一个：

根据该样本图像中的各个样本特征区域在该样本图像中的位置关系，按照所述第一预定方位顺序、使用所述预定字符集中的前M2个字符对该样本图像中的各个样本特征区域进行标注，其中，M2为该样本图像所包含的样本特征区域的数量，

使用该样本图像中的M2个样本特征区域中的、被确定为任一输入特征区域的匹配区域的M2’个样本特征区域对应的字符，并按照所述M2’个样本特征区域各自所匹配的输入特征区域的标注次序，来构建该样本图像的第二字符串，以及

计算该样本图像的第二字符串与所述第一字符串之间的相似度，来作为该样本图像与所述输入图像之间的几何相似度。

附记20.根据附记15-19中任一所述的图像处理方法，其中，所述检索结果是按照以下方式进行排序的：

按照所述检索结果与所述输入图像之间的视觉相似度的高低顺序进行排序的；或

按照所述检索结果与所述输入图像之间的视觉相似度与语义相似度的加权和的高低顺序进行排序的。

附记21.根据附记20所述的图像处理方法，其中，所述检索结果与所述输入图像之间的语义相似度是通过如下方式获得的：

将所述提取单元所提取的至少一个关键词的至少部分作为所述输入图像的语义信息；以及

根据每个检索结果所包含的文本信息与所述输入图像的语义信息之间的相关性，获得所述每个检索结果与所述输入图像之间的语义相似度。

附记22.一种电子设备，包括如附记1-13中任一项所述的图像处理装置。

附记23.根据附记22所述的电子设备，所述电子设备是以下设备中的任一种：

手机；计算机；平板电脑；以及个人数字助理。

附记24一种计算机可读存储介质，其上存储有能够由计算设备执行的计算机程序，所述程序在执行时能够使所述计算设备执行根据附记14-21中任意一项所述的图像处理方法。

Claims

1.一种图像处理装置，包括：

处理单元，其被配置用于使用所述至少一个关键词来进行检索，获得检索结果，

其中，所述第一计算单元包括：

第一计算子单元，其被配置用于计算所述至少部分样本图像中的每一个与所述输入图像之间的视觉相似度，

其中，所述第一计算子单元包括第一计算模块，所述第一计算模块被配置用于计算所述至少部分样本图像中的每一个与所述输入图像之间的内容相似度，所述第一计算模块包括：

2.根据权利要求1所述的图像处理装置，其中，所述样本图像和所述输入图像均具有各自的附加信息，以及所述第一计算单元还包括：

3.根据权利要求1所述的图像处理装置，其中，

所述第一计算模块还包括：

4.根据权利要求3所述的图像处理装置，其中，所述第一计算子单元还包括第二计算模块和第一确定模块，所述第二计算模块被配置用于计算所述至少部分样本图像中的每一个与所述输入图像之间的几何相似度，所述第一确定模块用于将所述至少部分样本图像中的每一个与所述输入图像之间的内容相似度和几何相似度的加权和确定为该样本图像与所述输入图像之间的视觉相似度；以及所述第二计算模块包括：

5.根据权利要求4所述的图像处理装置，还包括：

6.根据权利要求5所述的图像处理装置，其中，所述第二计算单元包括：

7.一种图像处理方法，包括：

在所述相似图像的文本描述中提取至少一个关键词；以及

使用所述至少一个关键词来进行检索，获得检索结果，

其中，所述至少部分样本图像中的每一个与所述输入图像之间的相似度包括所述至少部分样本图像中的每一个与所述输入图像之间的视觉相似度，

其中，所述至少部分样本图像中的每一个与所述输入图像之间的视觉相似度包括所述至少部分样本图像中的每一个与所述输入图像之间的内容相似度，

其中，所述至少部分样本图像中的每一个与所述输入图像之间的内容相似度是通过如下方式获得的：

在所述输入图像中提取至少一个输入特征区域；

在所述至少部分样本图像中的每一个中提取至少一个样本特征区域；

根据第二计算子模块的计算结果，获得所述输入图像与所述至少部分样本图像中的每一个之间的内容相似度。

8.一种电子设备，包括如权利要求1-6中任一项所述的图像处理装置。