CN106557728B

CN106557728B - 查询图像处理和图像检索方法和装置以及监视系统

Info

Publication number: CN106557728B
Application number: CN201510640115.1A
Authority: CN
Inventors: 李荣军; 谭诚; 黄耀海; 那森; 松下昌弘; 椎山弘隆
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-09-30
Filing date: 2015-09-30
Publication date: 2019-06-18
Anticipated expiration: 2035-09-30
Also published as: CN106557728A

Abstract

本发明涉及查询图像处理和图像检索方法和装置以及监视系统。提供一种用于处理各自含有对象的多个查询图像的方法，该方法的特征在于包括以下步骤：提取步骤，提取查询图像的特征；图像关联步骤，对于包含注册图像的检索数据库中的注册图像，通过利用查询图像和该注册图像的特征，建立查询图像之间以及该注册图像和查询图像之间的关系；以及查询图像选择步骤，通过利用所述关系，从查询图像选择至少一个查询图像。通过在查询图像之间以及在注册图像与查询图像之间建立关系以选择查询图像的子集，避免选择噪声查询图像，由此提高系统的搜索精度。

Description

查询图像处理和图像检索方法和装置以及监视系统

技术领域

本发明一般涉及图像处理和/或图像检索的领域，更特别地，涉及用于处理查询图像的方法和装置、图像检索方法和装置以及监视系统。

背景技术

监视系统被广泛应用于各种公共和私人场所，例如机场、火车站、超市、住宅和其它场所。监视系统将长时间的大量的监视视频记录于一些存储介质中，使得用户可查看特定人的过去的行动。但是，手动检查这些大视频数据极其费力和耗时，并且，在一些需要尽可能快地找到目标对象(诸如特定人)的紧急情况下是不可接受的。例如，父母在机场为了避免飞机延误要立即找到他们走散的孩子。在这种情况下，提出自动图像处理和检索系统以便在短时间内定位目标对象是非常必要的。但是，由于大量的变化因素影响搜索精度，因此不容易开发令人满意的自动图像处理和检索系统。例如，在目标对象是人的情况下，可能的因素包括脸部的姿态、外部的亮度和诸如照相机的图像捕获装置的分辨率等。为了在一定程度上减轻这些变化的因素的不良影响，多查询技术现在变得越来越受关注。

美国专利No.US7221809B2(发明名称为“Face Recognition System andMethod”)从输入图像组选择最佳匹配目标图像的几个图像，然后将选择的这些图像合在一起来评价目标图像的相关度得分。

如图1A所示，专利申请No.WO2005/008570A2(发明名称为“Face identificationverification using frontal and side views”)从捕获的图像组选择具有不同姿态的几个查询，然后利用这些查询来评价目标图像的相关度得分。

专利申请No.WO2014/028286(发明名称为“Method and apparatus for facialrecognition”)通过应用最大、最小、平均或其它池化(pooling)算子代表对于子空间的多个输入图像，然后在子空间下评价目标图像的相关度得分。

中国专利申请No.CN1636226A(发明名称为“根据脸部图像的时间序列识别脸”)使用多个输入脸部图像来形成高分辨率脸部图像，然后使用该图像来评价目标图像的相关度得分。

以上的方法和系统通过从不同的观点对图像验证或图像搜索融合多个查询而在一定程度上提高搜索精度；但是，它们均或多或少地具有一些问题。

例如，自动处理和检索的一些方法和系统可能选择那些不合适的查询来评价目标图像的相关度得分，原因是它们采取一些不合适的选择方式，诸如选择高分辨率图像或脸大的图像。例如，它们可能选择左脸图像作为用于评价右脸图像的相关度得分的查询。一些方法虽然在检查目标图像的性能性质之后再选择查询，但是由于一些错误识别的图像特征，它们仍然可能选择那些不合适的图像作为查询。例如，以一个男人的几张图像被输入作为查询，以一个女人的图像作为目标对象，并选定人体属性作为图像的相关性度量特征时。如果一个查询图像的性别属性被错误识别为“女性”，那么在理想情况下它应被丢弃。但是，现有技术的方法和系统可能会选择它作为有效的查询，原因是它与目标图像具有相同的性别属性。

发明内容

鉴于以上的情况，在现有技术中存在期望解决的问题。本发明旨在解决上述的问题。本发明的一个目的是提供解决以上问题中的任一个的解决方案。

发明人独特地发现，在自动处理和检索系统中，查询的选择有时大大影响搜索精度。例如，在上述的专利申请No.WO2005/008570A2中，可能会使用查询图像Q1的右脸来评价注册图像R2的左脸，并且，如图1B所示，查询图像Q3的左脸和注册图像R1的右脸相似。以下，不匹配目标对象的诸如右脸的查询可被称为噪声查询。发明人独特地发现，引入噪声查询来评价检索数据库中的注册图像导致低的匹配精度。

为了解决以上的问题，本发明提出一些动态查询选择方法，这些动态查询选择方法通过利用目标图像与各查询之间的关系以及查询之间的关系来选择有效的查询。其会随目标图像(例如，检索数据库中的注册图像)的变化选择不同的查询，以避免选择噪声查询。以这种方式，查询和注册图像的匹配精度可大大增加，因此，整个自动图像处理和检索系统的搜索精度得到提高。

根据本公开的一个方面，提供一种用于处理各自含有对象的多个查询图像的方法，其特征在于，该方法包括以下步骤：提取步骤，提取查询图像的特征；图像关联步骤，对于包含注册图像的检索数据库中的注册图像，通过利用查询图像和该注册图像的特征，建立查询图像之间以及该注册图像和查询图像之间的关系；以及查询图像选择步骤，通过利用所述关系，从查询图像选择至少一个查询图像。

根据本公开的又一方面，提供一种用于处理各自含有对象的多个查询图像的装置，其特征在于，该装置包括：被配置用于提取查询图像的特征的提取部件；被配置为对于包含注册图像的检索数据库中的注册图像，通过利用查询图像和该注册图像的特征建立查询图像之间以及该注册图像和查询图像之间的关系的图像关联部件；以及被配置用于通过利用所述关系从查询图像中选择至少一个查询图像的查询图像选择部件。

通过建立查询图像之间以及注册图像与查询之间的关系以选择查询图像的子集，避免了选择噪声查询图像，由此大大提高了系统的搜索精度。

参照附图阅读以下说明，本发明的其它特征和优点将变得清晰。

附图说明

包含于说明书中并构成其一部分的附图示出本发明的实施例，并与说明一起用于解释本发明的原理。图中，使用类似的附图标记来表示类似的项目。

参照以下的附图描述本发明的一些实施例：

图1A示出现有方法的脸部识别/验证的多查询搜索过程的流程图，图1B示出了噪声查询的例子。

图2A～2C示例性地示出本发明的创新性技术思想。具体而言，图2A示出建立注册图像与查询图像的关系以及建立查询图像的关系的直观例子；图2B示出选择查询图像的直观例子；图2C示出评价注册图像与所选查询图像中的每一个的相关度的直观例子。

图3示例性地示出根据本发明的实施例的用于处理多个查询图像的方法的流程图。

图4是示例性的人图像索引方法的示意性流程图。

图5示例性地示出使用基于聚类的方法来选择查询图像的例子。

图6是根据本发明的实施例的分类方法的对查询选择的流程图。

图7示例性地示出根据本发明的实施例的排序方法的对查询选择的例子。

图8示例性地示出对查询选择的选择结果。

图9是根据本发明的实施例的分类方法的例子的流程图。

图10A示例性地示出根据本发明的实施例的另一分类方法的例子。

图10B示例性地示出通过根据本发明的实施例的另一分类方法的以上例子获得的结果。

图11是根据本发明的实施例的使用置信度传播方法选择查询图像的流程图。

图12示例性地示出根据本发明的实施例的使用置信度传播方法选择查询图像的例子。

图13示出具有注册人的属性和查询图像的属性的例子。

图14示意性地示出根据本发明的另一实施例的图像检索方法的流程图。

图15示意性地示出根据本发明的实施例的用于处理查询图像的示例性装置的功能框图。

图16示意性地示出根据本发明的实施例的用于处理查询图像的另一示例性装置的功能框图。

图17示意性地示出根据本发明的实施例的用于处理查询图像的另一示例性装置的功能框图。

图18示意性地示出根据本发明的实施例的示例性图像检索设备的功能框图。

图19示意性地示出根据本发明的实施例的另一图像检索设备的功能框图。

图20示意性地示出根据本发明的实施例的另一图像检索设备的功能框图。

图21示意性地示出根据本发明的实施例的监视系统的功能框图。

具体实施方式

应当注意，以下的实施例并不意欲限制所附权利要求的范围，并且在实施例中描述的特征的所有组合对于解决本发明的技术问题并不一定是必需的。以下描述的本发明的实施例中的每一个都可单独地实施，或者在必要的情况下或在单个实施例中组合来自各个实施例的要素或特征是有益的情况下作为多个实施例或者它们的特征的组合来实施。

由于图中类似的附图标记用于表示类似的元件，因此，将不在说明书中重复描述这些类似的元件，并且，本领域普通技术人员将理解这些类似的元件表示类似的含义。

在本公开中，可以通过软件、硬件、固件或者其任意组合来实施本公开的每个单元、部件和/或组件，并且，如果要由这些单元、部件和/或组件执行的操作与要由根据本公开的方法执行的步骤类似，则为了简洁起见，可能仅详细描述相应的步骤而省略对操作的详细描述。但是，本领域普通技术人员将明白由这些单元、部件和/或组件执行的操作的具体内容。也就是说，尽管可能以装置为背景来描述一些方面，但是显然，这些方面也代表对应方法的描述，其中块或单元对应于方法步骤或方法步骤的特征。类似地，在方法步骤的背景中描述的方面也代表对应装置的对应块或项或特征。另外，可以通过软件、硬件、固件或者其任意组合来实施根据本公开的方法。也就是说，本公开的方法和系统不限于其实现方式，并且，本发明的保护范围仅由所附的权利要求限定。

而且，在本公开中，步骤的执行顺序不是必须要按照流程图所示出和实施例中所提到的那样，而是可以根据实际情况来灵活变通的，即，本发明不应该受到流程图所示出的步骤的执行顺序的限制。

下面，首先参照图2A～2C描述本发明的创新性技术思想。

如图2A～2C所示，圆圈表示注册图像，方形表示查询图像。对于从三个查询图像的查询图像组选择例如两个查询图像的任务，利用组合理论可知对于该选择存在三种选择方案。因此，该任务等同于从三种可能的选择方案识别最佳的选择方案。图2A示出建立注册图像与查询图像的关系以及建立查询图像的关系的直观例子。图2B示出选择查询图像的直观例子，其中，两个选中的查询图像由实心方形表示。图2C示出评价注册图像的与两个选中的查询图像的相关度的直观例子。

以下将参照附图详细描述本发明的示意性实施例，其中，将描述关于本发明的实现的细节，例如，如何建立图像的关系。

图3是示例性地示出根据本发明的实施例的用于处理(选择)多个查询(例如，查询图像)的方法的流程图。这里，查询图像中的每一个在其中包含对象。应当注意，包含于查询图像中的对象可以是人、动物或关注的任何其它物品。

优选地，查询图像可关于姿态、表情、照度以及甚至年龄包含脸部的各种变动。在一个实施例中，可从不同的角度通过多个照相机或多个摄像机捕获具有不同姿态的查询图像。通常的查询图像包含左脸(例如，-30～-90度的偏转角变化)、正脸(例如，-30～30度的偏转角变化)、右脸(例如，30～90度的偏转角变化)、向下看脸部(例如，0～-90度的仰俯角变化)和往上看脸部(例如，0～90度的仰俯角变化)。

在另一实施例中，可从通过诸如照相机、移动电话、网络摄像机和/或任何其它智能设备的一个或更多个图像捕获装置捕获的一组图像或者从通过诸如摄像机、移动电话、网络摄像机和/或任何其它智能设备的一个或更多个视频获得装置获得的一组视频帧获取或选择查询图像中的每一个。

另外，应当注意，每个查询图像可以是原始图像或者经处理的图像。这里，经处理的图像可以指已经手动或自动地初步处理的图像，例如，增加包含于图像中的对象的亮度和/或红眼去除等。甚至，这里经处理的图像可以指从多个原始或经处理的图像组合或合成的图像。例如，多个图像包含人或动物的不同部分，此时，可从这些图像得到包含这些部分的一个图像。

再例如，可从以下之一获取查询图像中的每一个：

1)通过利用诸如照相机的多个图像捕获装置从多角度捕获而获得的图像的集合；

2)利用例如一个或更多个摄像机获得的多个视频帧；和

3)相册，例如，电子或物理相册。

这里，应当注意，查询图像也可以是例如存储于诸如存储器的存储装置中的事先存储的图像，并且，存储装置可以是独立部件或者例如与其它的部件一起集成于例如计算机或移动电话等的智能设备中的部件。

另外，可通过物理或无线通信接口或者通过网络从外部接收查询图像。

此外，可对所有接收(输入)的查询图像或它们的一部分执行查询图像的处理。另外，可以先人工过滤查询图像。例如，较暗或模糊的图像或者不容易发现对象的图像等可先被过滤掉。

这里，应当注意，这种初步过滤不等同于关于注册图像的查询图像的处理(选择)。具体而言，手动的初步过滤仅针对查询图像本身进行，并且，该操作旨在使得查询图像更精确和/或清楚地反映要在其中匹配(搜索)的对象的特性。但是，本公开中的查询图像的处理(选择)是结合注册图像进行的，要避免噪声查询图像并且要找到更匹配的注册图像。通过建立查询图像之间以及注册图像与查询图像的关系以选择查询图像的子集，关于各注册图像，查询图像和该注册图像的匹配精度大大增加。例如，初步过滤的查询图像可包含右脸图像和左脸图像，关于具有左脸的注册图像，仍然可能如在背景技术部分中解释的那样在不应用本发明的情况下用右脸查询图像评价左脸。实际上，在本公开的实施例中，初步过滤的查询图像和上述的初步处理的查询图像均可被用作查询图像。事实上，本发明不对查询图像作任何特别的限制，对它们的要求与现有技术中的类似，甚至比现有技术中的要求更少或更低，原因是，在本发明的实施例中，查询图像将经过选择处理，并且，可从中选择与注册图像更匹配的查询图像。

接着，将在下面描述用于处理多个查询的方法的详细过程。

首先，在步骤S310中，提取用于表示查询图像的图像特征。

这里，图像特征可包含低级特征，诸如小波(例如，Haar特征)、纹理特征(例如，LBP特征、SIFT特征、SURF特征和HOG特征)、颜色特征(例如，HSV特征、RGB特征)和视觉词袋(BoVW)。另外，图像特征也可包含一些高级特征，诸如人体属性(例如，种族、年龄、性别和头发颜色)。此外，低级特征和高级特征可被组合以构成新的特征。例如，标题为“Scalableface image retrieval using attribute-enhanced sparse code words”的IEEETRANSACTIONS ON MULTIMEDIA，YEAR 2013的论文公开了使用人体属性以编码LBP特征的方法。

优选地，图像的特征至少包括以下之一：

1)从包含至少眼睛区域、鼻子区域、嘴巴区域、头发区域和耳朵区域中的一个以上区域的脸部区域提取的图像特征；以及

2)从包含至少臂部区域、腿部区域和躯干区域中的一个以上区域的身体区域提取的图像特征。

这里，可在本发明的实施例中使用任何现有的或要开发的提取图像特征的方法。例如，可在本发明的实施例中使用现有技术中的任何已知的特征提取方法，诸如傅立叶变换方法、小波变换方法、最小二乘法、边界方向直方图方法和基于图像分割的Tamura纹理特征提取的方法等。

然后，在步骤S320中，关于包含一些注册图像的索引数据库中的注册图像，通过使用查询图像和注册图像的特征建立查询图像之间以及注册图像与查询图像之间的关系。

这里，索引数据库是具有广义的一般概念，它包含注册图像，与如何获得它们的特征和/或在哪里存储它们的特征无关。

具体而言，例如，索引数据库可包含注册图像和注册图像的提取特征，或者可包含注册图像特征而不包含图像。

在索引数据库包含注册图像和它们的图像特征的情况下，索引数据库中的各项可包含注册图像及其相应的图像特征。

在索引数据库包含注册图像而不包含图像特征的情况下，索引数据库中的各项可包含例如二元语组(bigram)α和β。这里，作为一个例子，α可以是注册图像，β可以是到注册图像特征向量(由注册图像的图像特征构成的该注册图像的特征向量)的超链接。注册图像的特征向量可包含于例如为特征数据库的另一数据库中。通过索引数据库中的超链接，注册图像的特征向量和注册图像相互关联。

再例如，索引数据库可包含两个数据库，即，特征数据库和图像数据库，特征数据库中的各项可包含二元语组α和β，α可以是注册图像的特征向量，β可以是到图像数据库中的注册图像的超链接。通过特征数据库中的超链接β，注册图像和它们的图像特征类似地相互关联。

这里，应当注意，索引数据库不限于以上提到的方式，它可包含更多的信息。

下面，参照图4详细描述人图像索引(即，形成索引数据库)的具体例子。这里，可在诸如均具有至少一个处理器或数字处理电路的计算机、移动电话、服务器等的可计算设备或者任何其它适当的装置中实现人图像索引过程。

图4是示例性的人图像索引方法的示意性流程图。

在步骤S410中，获得人图像。可通过一个或更多个静态或运动图像拾取装置的即刻捕获执行人图像的获得，或者可以从外部输入或者从存储装置获得人图像。

然后，在步骤S420中，通过使用相关领域中的任何已知或者要开发的技术检测获得的人图像中的脸部区域。有许多现有的脸部检测方法可用，诸如基于知识的方法、特征不变方法、模板匹配方法、基于外观的方法等。

这里，也可通过使用相关领域中的任何已知或者要开发的技术检测诸如身体区域的其它区域。

优选地，脸部区域例如可包含至少眼睛区域、鼻子区域、嘴巴区域、头发区域和耳朵区域中的一个以上区域，身体区域例如可包含至少臂部区域、腿部区域和躯干区域中的一个以上区域。

在步骤S430中，图像特征可被提取以代表图像，这里，可以使用各种图像特征。应当注意，用于代表用于索引的人图像的图像特征可与从查询图像提取的上述的图像特征一致。

在步骤S440中，人图像和从其提取的相应的图像可存储于上述的索引数据库中。

应当注意，以上的人图像索引过程仅是示意性的，本公开不限于它。另外，诸如动物的任何其它对象或其它任何适当的物品(例如，诸如钻石的贵重物品或其它任何需要关注的东西)都可类似地适用于这种索引过程。

然后，在图3所示的查询图像步骤S330中，可通过使用上述的通过使用查询图像和注册图像的特征获得的查询图像之间以及注册图像与查询图像之间的关系从这些查询图像选择至少一个查询图像(例如，查询图像的子集)。

这里，本公开不限于0/1的选择方式，有惩罚的选择方式也是可以的。例如，当在查询图像步骤S330中选择查询图像时，可向查询图像集合中的各查询图像分配权重，使得这些查询图像中的一部分的权重比这些查询图像中的另一部分的权重大。

以这种方式，通过建立查询图像之间以及注册图像与查询图像之间的关系以选择查询图像的子集，避免了选择噪声查询图像，由此提高了系统的搜索精度。

下面，为了便于理解，关于如何在图3所示的图像关联步骤S320中建立注册图像与查询图像之间以及特别是查询图像之间的关系，以下示例性地给出一个具体的例子。

如图2A所示，能够建立注册图像与查询图像中的每一个之间的关系以及查询图像中的每一个与另一个之间的关系。但是，这种建立图像的关系的方式仅是一个例子，本公开不限于它，而是还可以在注册图像与查询图像之间或者在查询图像之间建立其它种类的关系。

作为例子，可通过使用图像的相似度建立图2A所示的图像之间的上述的关系。术语“相似度”(或“距离”)在现有技术中已知可用于评价图像之间的关系。

优选地，可通过使用各种措施计算图像的相似度(例如，各对图像的相似度)。通常的措施包括余弦相似度(cosine similarity)、欧氏距离(Euclidean distance)、马氏距离(Mahalanobis distance)和关于逻辑回归方法(logistic regression method)、支持向量机(support vector machine)和度量学习(metric learning)等的其它的预先训练机器学习方法。用于计算图像之间的相似度的这些措施在现有技术中是已知的，为了简洁起见，省略它们的细节。

应当注意，建立图像的关系的方式不限于上述的方法，而是能够想到的任何建立图像的关系的方式都应包含于本公开的保护范围中。

下面，为了便于理解，关于如何从给定查询图像的集合选择查询图像，参照附图给出几个实施例和例子。

优选地，在图3所示的查询图像选择步骤S330中，可通过使用以下方法中的至少一个选择查询图像：

1)基于聚类的方法；

2)排序方法；以及

3)分类方法。

以下，使用基于聚类的方法以选择查询图像可包含以下步骤：

将查询图像聚类成多个查询组或者将查询图像与注册图像一起聚类成多个查询组；以及

从多个查询组选择更接近注册图像的一个或更多个查询组或者所述一个或更多个查询组的一部分。

具体而言，关于基于聚类的方法，为了便于理解，给出几个具体例子。

首先，如图5所示，圆圈表示注册图像；方形表示四个查询图像；三角形表示聚类的两个组中心。通过使用聚类方法，四个查询图像被聚类成两个查询组。然后，在四个查询图像中，上面的两个查询图像可被选择，原因是它们的组中心(聚类中心)比下面的查询图像的组中心更接近注册图像。

在以上的例子中，可根据组中心与注册图像之间的距离选择查询图像，但是，在本发明中，当计算距离时，不限于组中心这样的位置。例如，也可使用组中心附近的位置或组边界处的位置等，判断组中心以外的组中的其它任何特定位置是否也可接受。

另外，关于组中心，存在多个得到它的方法。例如，如果一个查询图像与同一组中的其它查询图像之间的距离大致相同，那么该查询图像可被视为该组的组中心。对于另一例子，可以使用k平均聚类(Brian T.Luke:“K-Means Clustering”http://fconyx.ncifcrf.gov/～lukeb/kmeans.html)以获得组中心，其中，通过关于各维度将聚类组中的所有要素(即，查询图像的特征向量)平均化，获得组中心。但是，本领域技术人员可以理解，本公开不限于上述的那些。

另外，本公开不限于选择一个或更多个整个查询组，而是也可选择查询图像的一个或更多个查询组的一部分。

在另一实施例中，查询图像可与注册图像聚类在一起，然后可选择接近注册图像的几个查询图像。在这种情况下，优选地，注册图像聚类到的查询组可被选择。作为替代方案，可以选择更接近注册图像聚类到的该查询组中的注册图像的几个查询图像。

鉴于以上，本公开不对用于确定查询组与注册图像之间的距离的查询组的位置作任何特别的限制，只要可从多个查询组选择更接近注册图像的一个或更多个查询组或者所述一个或更多个查询组的一部分即可。

在实施例中，提出使用排序方法以选择查询图像。例如，排序方法可包含以下的步骤：

以查询图像和注册图像的特征向量为节点，建立无向图；

优化用节点的相似度定义的能量函数，以确定要选择的查询图像。

优选地，排序方法可至少包含对查询方法和置信度传播方法。

在一个实施例中，对于注册图像评价，一对查询图像可能是足够的。在该特定的情况下，提出贪心搜索方法以选择查询图像。该方法贪心地对所有查询图像的对进行打分，选择具有最高得分的一对查询图像作为结果。

在步骤S610中，将所有图像(实际上是它们的特征向量)表示为图形节点。

在步骤S620中，如图7所示，通过使用图像的节点建立无向图。在图7中，圆圈表示注册图像，方形表示一些查询图像，虚线表示注册图像与查询图像之间的边，实线表示各对查询图像的边。

在步骤S630中，通过使用各对查询图像的关系和注册图像与各查询图像之间的关系，具体而言，通过使用图像节点(即，特征向量)之间的相似度，创建能量函数。

作为一个例子，能量函数可由下式给出：

这里，q_i和q_j分别是查询组中的第i个和第j个查询图像；r是注册图像；E(q_i，q_j|r)是给定r的情况下，关于q_i和q_j定义的能量函数；d(q_k，r)是q_k和r之间的距离，该距离与相似度有关，例如，在q_k和r之间的相似度为s(q_k，r)的情况下，该距离等于(1-s(q_k，r))；d(q_i，q_j)是q_i和q_j之间的距离，该距离与相似度有关，例如，在q_i和q_j之间的相似度为s(q_i ，q_j )的情况下，等于(1-s(q_i ，q _j))。

另外，作为另一例子，能量函数可由下式给出：

这里，q_i和q_j分别是查询组中的第i个和第j个查询图像；r是注册图像；E(q_i，q_j|r)是给定r的情况下，关于q_i和q_j定义的能量函数；s(q_k，r)是q_k与r之间的相似度；s(q_i，q_j)是q_i与q_j之间的相似度。

以上的能量函数的例子仅是示意性的，本公开不限于这些例子。

在步骤S640中，可以选择优化能量函数的一对查询图像。如果存在使能量函数最小化的至少一对查询图像，那么可以选择其中任意一对查询图像。

从以上可以看出，当使用距离来创建能量函数时，其优化可以是最小化，当使用相似度来创建能量函数时，其优化可以是最大化。

现在，为了便于理解，参考图8给出通过使用距离进行选择的上述排序方法的一个数值例子。

d(q₁，r)＝0.9；d(q₂，r)＝0.8;d(q₃，r)＝0.5

d(q₁，q₂)＝0.1；d(q₁，q₃)＝0.8；d(q₂，q₃)＝0.7

E(q₁，q₂|r)＝d(q₁，r)+d(q₂，r)+d(q₁，q₂)＝0.9+0.8+0.1＝1.8

E(q₁，q₃|r)＝d(q₁，r)+d(q₃，r)+d(q₁，q₃)＝0.9+0.5+0.8＝2.2

E(q₂，q₃|r)＝d(q₂，r)+d(q₃，r)+d(q₂，q₃)＝0.8+0.5+0.7＝2.0

最后，如图8所示，从三个查询图像q1、q2和q3选择一对查询图像q1和q2。

另外，可从一组查询图像选择多于两个的查询图像(在其查询图像的数量大于3的情况下)。在这种情况下，能量函数可由下式给出：

这里，q_i1是查询组中的第i₁个查询图像；r是注册图像；E(q_i1，q_i2，...，q_il|r)是定义的能量函数；d(q_j，r)是q_j和r之间的距离，该距离与相似度有关，例如，在q_j和r之间的相似度为s(q_i，r)的情况下，等于(1-s(q_j，r))；d(q_j，q_k)是q_j和q_k之间的距离，该距离与相似度有关，例如，在q_j和q_k之间的相似度为s(q_j ，q_k )的情况下，等于(1-s(q_j，q_k ))。

作为替代方案，能量函数可由下式给出：

这里，q_i1是查询组中的第i₁ 个查询图像；r是注册图像；E(q_i1，q_i2，...，q_il|r)是定义的能量函数；d(q_j，r)是q_j和r之间的相似度；s(q_j，q_k)是q_j和q_k之间的相似度。

另外，作为例子，使用上述的置信度传播方法以选择查询图像可包含以下的步骤：

将查询图像和注册图像的特征向量作为节点来建立有向图，每个节点具有连接到其子节点的一组正向链路，查询图像的节点中的每一个还具有连接到其父节点的一组反向链路；

通过为各节点设置初始值来初始化该有向图，并且基于各个边的节点对的相似度设置该有向图的各个边的权重；

利用各节点的初始值和各边的权重，迭代地更新各节点的值，直到满足收敛条件；以及

基于节点的最终值来确定要选择的查询图像。

这里，基于节点的最终值来确定要选择的查询图像包含选择其值比一个阈值(该阈值可以是动态的或预设的)高的查询图像。

这里，置信度传播方法沿图的边将置信度得分传播到每个图像节点，选择得到较高置信度得分的查询图像。

图11是根据本发明的实施例的使用置信度传播方法以选择查询图像的流程图。

在步骤S1110中，将所有的查询图像和注册图像表示为图中的节点。

在步骤S1120中，如图12所示，用各图像的节点建立有向图。在图12中，圆圈表示注册图像，方形表示一些查询图像。单向线表示注册图像与各查询图像之间的边，双向线表示各查询图像对的边。

在步骤S1130中，向节点分配一些预设值，并且，向图的各边分配相似度值。一般地，附于注册图像的节点上的值比各查询图像的节点的值大。

在步骤S1140中，通过使用置信度传播方法迭代地更新节点的值。

作为一个例子，置信度传播函数由下式给出：

这里，q_i和q_j分别是查询组中的笫i个查询和笫j个查询；r是注册图像；V(q_i)是节点q_i的值；w_i是r到q_i的边链路的权重；w_ji是q_i到q_j的边链路的权重；Out(r)是从r到查询图像的一组边；Out(q_j)是从q_j到其它查询图像的一组边。In(q_j)是从其它查询图像到q_j的一组边。

更新处理可以执行多次，直到满足收敛条件，诸如最大执行次数，或者V(q_i)的变化在相邻的两次迭代之间极小。

在步骤S1150中，选择前k个最大值的查询图像，用于评价注册图像的相关度。

应当注意，以上的置信度传播方法仅是排序方法的一个例子，本公开不限于此。

作为例子，分类方法可包括以下步骤：

引入与注册图像的节点相对的虚拟节点；

通过在查询图像的节点和注册图像的节点之间建立链路并在虚拟节点和查询图像的节点之间建立链路，来建立无向图；

向注册图像的节点和虚拟节点中的每一个分配不同的标记；

通过图分割方法对用各节点之间的相似度和注册图像的节点与虚拟节点的标记所定义的能量函数进行优化，以确定与每个查询图像关联的标记，其中，每个查询图像所关联的标记与注册图像的节点的标记或虚拟节点的标记相同；以及

根据查询图像所关联的标记，确定要选择的查询图像。

其中，能量函数可包括惩罚机制。如果两个相似的查询图像的节点所关联的标记不同，则向该能量函数给予惩罚，该惩罚的值与这两个节点之间的相似度相关。

具体而言，分类方法将一组查询图像分成两个部分，即，匹配部分和不匹配部分。匹配部分中的查询图像可被选择。

下面，参照图9描述分类方法的一个具体例子。

图9是根据本发明的实施例的分类方法的例子的流程图。

在步骤S910中，将注册图像和所有查询图像表示为图中的节点。

在步骤S920中，引入与注册图像的节点相对的虚拟节点。

关于如何产生虚拟节点，为了便于理解，以下将给出几个具体例子。

作为例子，如图10A所示，可假定虚拟节点与各查询节点之间的相似度等于数值1与注册图像节点和该查询节点之间的相似度之差。以这种方式，可创建虚拟节点。

作为另一例子，也可假定具有与注册图像最不相似的面部的索引数据库中的图像的特征向量可被用作虚拟节点。

应当注意，用于构建与索引数据库中的注册图像相对的虚拟节点的方式不限于上述的这些例子，并且，用于构建与注册图像相对的虚拟节点的任何适当的方式都是可以的。

在步骤S930中，如图10示意性地示出的那样，可通过在所有节点(包含虚拟节点)之间建立链路来建立无向图。具体而言，在图10中，圆圈表示注册图像，里面带叉的圆圈是虚拟节点，方形表示查询图像。虚线表示注册图像节点/虚拟节点与各查询图像节点之间的边，实线表示各对查询图像节点的边。

在步骤S940中，向各节点分配预设值，并且，向该图的各边分配相似度值。

在步骤S950中，定义关于该图的能量函数。

作为例子，使b＝(b₁，...，b_q，...b_[Q])二进制向量，其成分b_q规定查询组Q中的查询q的标签。例如，各b_q可被分配或“好”或“差”的标签。上述的二进制向量可定义查询分类，并且，能量函数可被定义为：

E(b)＝λ·B(b)+(1-λ)·Q(b)，0≤λ≤1

这里，

和

这里，应当解释，在两个类似的查询q_i和q_j被分配不同的标签的情况下，等于1，否则，它等于0。

在上式中，B(b)表示用于向查询q分配“好”和“差”的各惩罚，相应地为B_q(′good′)和B_q(′bad′)，其中，B_q(′good′)反映查询q与注册图像之间的距离，B_q(′bad′)反映查询q与虚拟节点之间的距离。实际上，B_q(′good′)在0与1之间被归一化，并且定义B_q(′bad′)＝1-B_q(′good′)。

术语Q(b)包含查询图像之间的“协作”性能。Q{q_i，q_j}被解释为由于两个相似的查询q_i和q_j的标签不同导致的惩罚。通常，当q_i和q_j相似时，Q{q_i，q_j}大，并且，当两个查询图像非常不同时，Q{q_i，q_j}小。

在步骤S960中，通过使用例如最大流/最小割的图分割算法，使能量函数最小化以选择查询图像。在图10B中示出图分割的结果。

应当注意，以上示出的能量函数仅是例子，并且，存在本领域技术人员能够想到的其它适当的能量函数。因此，本公开不限于本例子。

最后，选择其标签与注册图像的节点的标签相同的查询图像的节点。

在一个实施例中，也可使用人体属性来计算图像的相似度。但是，大多数的属性识别器对图像的姿态敏感。图13示出注册人的属性是“男人”和“白人”且查询人的属性应是“男人”和“黑人”的例子。但是，查询图像Q3的属性由于姿态而被错误识别，查询图像Q3的性别和种族属性均与另外两个查询图像的不同。

通过使用在以上的实施例中记载的方法中的任一个，容易地选择更匹配的查询图像Q1和Q2(而不是较不匹配的查询图像Q3)，这意味着本发明能够避免选择噪声查询图像。

此外，根据本发明的另一实施例，提供图像检索方法。

下面，参照图14描述图像检索方法。

首先，在评估步骤S1410中，关于检索数据库中的至少多个注册图像中的一个注册图像，使用通过根据本公开的上述的用于处理查询图像的方法中的任一个选择的至少一个查询图像，来评估注册图像与查询图像的相关度。

在输出步骤S1420中，根据评估步骤的结果，输出至少多个注册图像中的至少一部分注册图像。

另外，在输出步骤S1420之前，图像检索方法还可包括排序步骤S1415，在该排序步骤S1415中，至少多个注册图像根据至少多个注册图像的与所选查询图像的相关度被排序。然后，在输出步骤中，可以输出具有高的相关度的注册图像。

此外，在根据本发明的实施例的图像检索方法的评估步骤S1410中，通过用选择的查询图像中的各查询图像对注册图像打分，可以获得该注册图像的与各查询图像的相关度。

下面，作为例子，对一个注册图像打分的方式可包含以下方式中的一个。

1)使用选择的各查询图像与该注册图像的相关度中的最大值作为该注册图像的得分；

2)使用选择的各查询图像与该注册图像的相关度的平均值作为该注册图像的得分；以及

3)使用通过对选择的各查询图像与该注册图像的相关度进行加权求和得到的值作为该注册图像的得分。

这里，本领域技术人员都可知，对注册图像打分的方式不限于上述的例子。

通过使用根据本发明的实施例的图像检索方法，可以大大提高搜索/匹配精度，原因是可以避免噪声查询图像与注册图像的不正确的匹配。

这里，应当注意，在实施例中公开的用于处理查询图像的方法不限于应用于图像检索系统，它们可适于任何适当的应用，例如，与图像处理有关的任何应用，并且，本发明不对它们的应用和/或用途作任何限制。

另外，本领域技术人员应当理解，上述的步骤不一定都是必须的，特别是结合附图给出的那些。

此外，根据本发明的另一实施例，提供用于处理查询图像的装置。

图15示意性示出根据本发明的实施例的用于处理查询图像的示例性装置的功能框图。这里，查询图像中的每一个可在其中包含对象。

如图15所示，用于处理查询图像的装置300可包括：被配置用于提取查询图像的特征的提取部件310；被配置用于关于包含注册图像的索引数据库中的一个注册图像，通过使用查询图像和注册图像的特征，建立查询图像之间以及注册图像与查询图像之间的关系的图像关联部件320；以及被配置用于通过使用所述关系从查询图像选择至少一个查询图像的查询图像选择部件330。

此外，根据本发明的另一实施例，提供用于处理查询图像的装置。其中，查询图像中的每一个在其中包含对象。

图16示意性地示出根据本发明的实施例的用于处理查询图像的示例性装置的功能框图。

如图16所示，用于处理查询图像的装置400可包括：处理器410；具有存储于其上的能够使得处理器执行以下操作的计算机可执行指令的存储装置420：提取查询图像的特征；对于包含注册图像的检索数据库中的一个注册图像，通过利用查询图像和该注册图像的特征，建立查询图像之间以及该注册图像和查询图像之间的关系；以及通过利用所述关系，从查询图像中选择至少一个查询图像。

图17示意性地示出根据本发明的实施例的用于处理查询图像的示例性装置的功能框图。

如图17所示，用于处理查询图像的装置500可包括：可被配置用于直接从一个或更多个图像捕获装置获得查询图像或者经由一个或更多个通信接口或网络获得查询图像的查询图像获得部件510；以及被配置用于执行以下操作的处理器520：提取查询图像的特征；对于包含注册图像的检索数据库中的注册图像，通过利用查询图像和该注册图像的特征，建立查询图像之间以及该注册图像和查询图像之间的关系；和通过利用所述关系，从查询图像中选择至少一个查询图像。

通过上述的用于处理查询图像的装置中的任一个，可以避免选择导致与注册图像的不正确的匹配的噪声查询图像，由此可大大提高图像的匹配精度。

此外，根据本发明的另一实施例，提供一种图像检索设备。

如图18所示，图像检索设备1800可包括：被配置用于对于检索数据库中的至少多个注册图像中的一个注册图像，利用通过根据本发明的实施例的用于处理查询图像的装置中的任一个所选择的至少一个查询图像，来评估该注册图像与查询图像的相关度的评估部件1810；以及被配置用于输出至少多个注册图像中的至少一部分注册图像的输出部件1820。

另外，图像检索设备1800还可包括被配置用于根据至少多个注册图像与查询图像的相关度，对至少多个注册图像排序的排序部件1815。

此外，根据本发明的另一实施例，提供一种图像检索设备。

图19示意性地示出根据本发明的实施例的图像检索设备的功能框图。

如图19所示，图像检索设备1500可包括：根据本发明的实施例的上述的用于处理查询图像的装置中的任一个(300或400或500)，其中，用于处理查询图像的装置中的处理器可进一步被配置用于执行以下的操作：对于检索数据库中的至少多个注册图像中的一个注册图像，利用选择的至少一个查询图像，评估注册图像与查询图像的相关度；以及输出至少多个注册图像中的至少一部分注册图像。

此外，根据本发明的另一实施例，提供一种图像检索设备。

图20示意性地示出根据本发明的实施例的图像检索设备的功能框图。

如图20所示，图像检索设备1600可包括：根据本发明的实施例的上述的用于处理查询图像的装置中的任一个(300或400或500)；以及被配置用于执行以下操作的检索部件1600：对于检索数据库中的至少多个注册图像中的一个注册图像，利用选择的至少一个查询图像，评估注册图像与查询图像的相关度；以及输出至少多个注册图像中的至少一部分注册图像。

通过使用根据本发明的实施例的图像检索设备，可大大提高搜索/匹配精度，原因是它可避免噪声查询图像与注册图像的不正确的匹配。

此外，根据本发明的另一实施例，提供一种监视系统。

如图21所示，监视系统2100可包括：根据本发明的实施例的上述的图像检索设备1400～1600中的任一个。

通过使用根据本发明的实施例的监视系统，可以大大提高系统的监视精度。

这里，应当注意，通过以上的装置和/或部件执行的操作与通过上述的那些相应的方法执行的步骤类似。

请注意，上述的实施例仅是解释性的，并且，本发明不限于它们。并且，说明书中的各方面的各种组合应包含于本发明的保护范围中。

另外，请注意，能够以许多方式实施本发明的方法和装置。例如，能够通过软件、硬件、固件或者它们的任意组合实施本发明的方法和装置。上述的方法步骤的次序仅是解释性的，并且，本发明的方法步骤不限于以上具体描述的次序，除非另外特别陈述。此外，在一些实施例中，本发明也可体现为记录于记录介质中的程序，包含用于实现根据本发明所述的方法的机器可读指令。因此，本发明也覆盖存储用于实现根据本发明所述的方法的程序的记录介质。

虽然用例子详细示出本发明的一些具体的实施例，但本领域技术人员应理解，以上的例子仅是解释性的，不限制本发明的范围。本领域技术人员应当理解，可以在不背离本发明的范围和精神的情况下修改以上的实施例。本发明的范围由所附的权利要求限定。

Claims

1.一种用于处理查询图像的方法，每个查询图像中含有对象，该方法的特征在于包括以下步骤：

提取步骤，提取查询图像的特征；

图像关联步骤，对于包含注册图像的索引数据库中的一个注册图像，通过利用查询图像和该注册图像的特征，建立查询图像之间以及该注册图像和查询图像之间的关系；以及

查询图像选择步骤，通过利用所述关系，采用排序方法或分类方法，从查询图像选择至少一个查询图像，其中，

所述排序方法包括：

通过为每个节点设置初始值来初始化该有向图，并且基于各个边的节点对的相似度，设置该有向图的各个边的权重；

基于节点的最终值来确定要选择的查询图像；

或者，所述排序方法包括：

以查询图像与注册图像的特征向量作为节点，建立无向图；

优化用节点的相似度定义的能量函数，以确定要选择的查询图像；

所述分类方法包括：

引入与注册图像的节点相对的虚拟节点；

通过在查询图像的节点和注册图像的节点之间建立连接并在虚拟节点和查询图像的节点之间建立连接来建立无向图；

根据查询图像所关联的标记，确定要选择的查询图像，

其中，能量函数包括惩罚机制，如果两个相似的查询图像的节点所关联的标记不同，则向该能量函数给予惩罚，该惩罚的数值与这两个节点之间的相似度有关。

2.根据权利要求1所述的用于处理查询图像的方法，其中，在图像关联步骤中，通过图像的相似度来建立图像之间的关系。

3.根据权利要求2所述的用于处理查询图像的方法，其中，通过以下方式中的至少之一来计算相似度：

1)余弦相似度；

2)欧氏距离；

3)马氏距离；以及

4)预先训练机器学习方法，至少包括逻辑回归方法、支持向量机方法和度量学习方法。

4.根据权利要求1～3中的任一项所述的用于处理查询图像的方法，其中，能够从以下之一中获取多个查询图像中的每一个：

1)图像集合；以及

2)视频帧集合，

其中，每个查询图像能够是原始图像或者经处理的图像。

5.根据权利要求1～3中的任一项所述的用于处理查询图像的方法，其中，能够从以下之一中获取多个查询图像中的每一个：

1)通过利用多个图像捕获装置从多角度捕获而得到的图像集合；

2)多个视频帧；以及

3)相册。

6.根据权利要求1～3中的任一项所述的用于处理查询图像的方法，其中，图像的特征至少包括以下之一：

7.一种图像检索方法，其特征在于，该方法包括以下步骤：

评估步骤，对于索引数据库中的至少多个注册图像中的一个注册图像，利用通过根据权利要求1-6中的任一项所述的用于处理查询图像的方法所选择的至少一个查询图像，评估该注册图像与查询图像的相关度；以及

输出步骤，根据评估结果，输出所述至少多个注册图像中的至少一部分注册图像。

8.根据权利要求7所述的图像检索方法，其中，在评估步骤中，通过利用选择的查询图像中的每个查询图像，对注册图像打分而得到该注册图像与该查询图像的相关度，其中，对注册图像打分的方式包括以下之一：

1)将选择的各查询图像与该注册图像的相关度中的最大值作为该注册图像的得分；

2)将选择的各查询图像与该注册图像的相关度的平均值作为该注册图像的得分；以及

3)将选择的各查询图像与该注册图像的相关度进行加权求和得到的值作为该注册图像的得分。

9.一种用于处理查询图像的装置，每个查询图像中含有对象，其特征在于，该装置包括：

被配置用于提取查询图像的特征的提取部件；

被配置用于对于包含注册图像的索引数据库中的一个注册图像，通过利用查询图像和该注册图像的特征建立查询图像之间以及该注册图像和查询图像之间的关系的图像关联部件；以及

被配置用于通过利用所述关系，采用排序方法或分类方法，从查询图像中选择至少一个查询图像的查询图像选择部件；其中，

所述排序方法包括：

基于节点的最终值来确定要选择的查询图像；

或者，所述排序方法包括：

以查询图像与注册图像的特征向量作为节点，建立无向图；

所述分类方法包括：

引入与注册图像的节点相对的虚拟节点；

根据查询图像所关联的标记，确定要选择的查询图像，

10.一种用于处理查询图像的装置，每个查询图像中含有对象，其特征在于，该装置包括：

处理器；以及

其上存储有能够使得处理器执行以下操作的计算机可执行指令的存储装置：

提取查询图像的特征；

对于包含注册图像的索引数据库中的一个注册图像，通过利用查询图像和该注册图像的特征，建立查询图像之间以及该注册图像和查询图像之间的关系；以及

通过利用所述关系，采用排序方法或分类方法，从查询图像中选择至少一个查询图像，其中，

所述排序方法包括：

基于节点的最终值来确定要选择的查询图像；

或者，所述排序方法包括：

以查询图像与注册图像的特征向量作为节点，建立无向图；

所述分类方法包括：

引入与注册图像的节点相对的虚拟节点；

根据查询图像所关联的标记，确定要选择的查询图像，

11.一种用于处理查询图像的装置，每个查询图像中含有对象，其特征在于，该装置包括：

被配置用于直接从一个或更多个图像捕获装置获得查询图像或者经由一个或更多个通信接口或网络获得查询图像的查询图像获得部件；以及

被配置用于执行以下操作的处理器：

提取查询图像的特征；

所述排序方法包括：

基于节点的最终值来确定要选择的查询图像；

或者，所述排序方法包括：

以查询图像与注册图像的特征向量作为节点，建立无向图；

所述分类方法包括：

引入与注册图像的节点相对的虚拟节点；

根据查询图像所关联的标记，确定要选择的查询图像，

12.一种图像检索设备，其特征在于，该图像检索设备包括：

被配置用于对于索引数据库中的至少多个注册图像中的一个注册图像，利用通过根据权利要求9-11中的任一项所述的用于处理查询图像的装置所选择的至少一个查询图像来评估该注册图像与查询图像的相关度的评估部件；以及

被配置用于根据评估结果输出所述至少多个注册图像中的至少一部分注册图像的输出部件。

13.一种图像检索设备，其特征在于，该图像检索设备包括：

根据权利要求11所述的用于处理查询图像的装置，

其中，所述用于处理查询图像的装置中的处理器进一步被配置用于执行以下的操作：

对于索引数据库中的至少多个注册图像中的一个注册图像，利用选择的至少一个查询图像来评估该注册图像与查询图像的相关度；以及

根据评估结果输出所述至少多个注册图像中的至少一部分注册图像。

14.一种图像检索设备，其特征在于，该图像检索设备包括：

根据权利要求9～11中的任一项所述的用于处理查询图像的装置；以及

被配置用于执行以下操作的检索部件：

15.一种监视系统，其特征在于，该监视系统包括根据权利要求12～14中的任一项所述的图像检索设备。