CN106557523A

CN106557523A - 代表性图像选择方法和设备以及对象图像检索方法和设备

Info

Publication number: CN106557523A
Application number: CN201510639358.3A
Authority: CN
Inventors: 那森; 黄耀海; 李荣军; 谭诚; 椎山弘隆; 松下昌弘
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-09-30
Filing date: 2015-09-30
Publication date: 2017-04-05
Anticipated expiration: 2035-09-30
Also published as: CN106557523B

Abstract

本发明涉及代表性图像选择方法和设备以及对象图像检索方法和设备。该代表性图像选择设备被配置为从与同一对象相关联的多个对象图像选择至少一个代表性对象图像，包括分割单元，被配置为根据第一准则将所述多个对象图像分割成至少一个对象图像组；聚类生成单元，被配置为对于所述至少一个对象图像组中的每一组，生成至少一个对象图像聚类，每一对象图像聚类对应于对象或者对象图像的特征；以及代表性对象图像选择单元，被配置为对于所述至少一个对象图像聚类中的每一个，关于对应于该对象图像聚类的对象或者对象图像的该特征选择预定数量的代表性对象图像。

Description

代表性图像选择方法和设备以及对象图像检索方法和设备

技术领域

本发明涉及代表性图像的选择以及对象图像的检索，并且尤其涉及从与同一对象相关联的多个对象图像选择至少一个代表性图像，以及基于所选择的代表性图像来检索对象图像。

背景技术

近年来，图像中的对象检测/识别在图像处理、计算机视觉和图案识别领域中正获得广泛和重要的应用，并且在其中起到了重要的作用。对象可以是人的脸部、手部、身体等中的任一种。

在一种常用应用中，视频监控系统已经被用于捕获和记录大量公共和私人场所(诸如机场、火车站、超市、家庭以及有人、车辆等存在的其它场所)的视频。通常，监控照相机捕获长期存在大量对象的场所，并且将所捕获的对象的视频记录到数据中，从而特定人物或车辆等的以往的存在可被检索并且被进行检查。这样的实现可被广泛地用于实时监控、人物跟踪、车辆跟踪等。

为了从所记录的视频检索到希望的对象，通常的选择是人工检查所记录的原始视频，但是人工检查大量的原始视频数据是非常劳动密集和费时的。此外，人工检查方法并不适合于需要进行实时检索的许多场景。例如，父母需要在机场尽快找到他们的孩子，以避免推迟旅程(例如，国际航班)。

作为结果，已经开发了对象图像检测算法，其可被用于识别视频帧中的对象，从而用户能够检索特定的对象，诸如人物，以查看他/她的行为(诸如，进入或离开超市)。

常规地，这样的对象图像检索算法通常是对于所有视频帧上的对象的所有状态而执行的，这通常意味着要对海量数据进行处理，因此基于所有这些视频帧的检索增加了检索服务器的负担。例如，在捕获人物的监控系统中，监控照相机通常位于不同的位置，并且可能会发生很大的改变，因此所捕获的人物的脸可能具有多种姿态。在这样的情况下，从视频帧检索与人物的全部的各种姿态有关的人物必然是费时的。因此，希望仅从所有视频帧选择/确定与人物的姿态有关的有限数量的对象图像作为检索的基础以便平衡检索的准确度和速度。

美国专利US007545973B2公开了一种用于生成关于输入的查询对象的有限数量的图像来作为检索的基础。具体而言，在该美国专利中，预先生成预定的模块，以便对于输入的对象图像获得各种扩展的图像。因此，对于一个对象，在该模块中将定义预定数量的不同条件下的对象，并且将使用这样的预定数量的对象来对多个被捕获的帧进行过滤。然后，与这样预定数量的对象图像匹配的所捕获的帧将被登记到图像数据库中用于人物检索。

如图1中所示，预先生成了包括人物的九种姿态的模块，如虚线框中所示，因此这样的九种姿态将被用作检索的基础。当通过视频监控系统捕获了具有不同姿态的人物时，所捕获的与人物有关的帧中的仅对应于这九种姿态的图像将被保留作为检索的结果。

具体而言，如图1所示，实线框中的人物对应于通过视频监控系统实际捕获的人物姿态，并且只有也被包含在虚线框中的具体姿态将被保留并存储在数据库中作为检索结果，而其它姿态，诸如在虚线框之外的四种姿态以及实线框中的另两种姿态将被丢弃。从这一点来看，只有模块中的被预先确定的姿态将被检索为结果。

在上述方法中，尽管作为检索基础的姿态的数量与人物的所有可能的姿态的数量相比被显著减小，并且检索速度可能提高，但是由于这样的模块中的预定的姿态是被预先定义的，因此可能存在如下这样的问题：即实际捕获的人物姿态与预先定义的姿态不匹配，因而这样捕获的人物姿态可能会被丢弃，而实际上这样捕获的人物姿态可能是重要的或者具有代表性的，因此这样将无法检测到重要性的或者代表性的人物帧。

此外，预先确定的姿态可被看作是离线预定的，并不能适当地反映出实际的人物状态，因此人物的一些重要且关键的姿态无法被有效地保留，检索结果的准确度会受到负面影响。

从上文可见，当前的技术尽管已经在一定程度上减少了作为检索基础的对象图像的数量，但是由于可能会忽略掉关键的姿态，因而仍无法实现令人满意的检索结果。

因此，仍需要如下这样一种方法和设备，其能够合适地选择/确定有限数量的代表性对象图像作为检索基础，以便进一步平衡对象检索的准确度和速度。

此外，希望作为检索基础的对象图像的这样的选择/确定可被动态执行，以便包含更具代表性的对象状态。

发明内容

本发明是针对图像中的对象检索被开发的，并且旨在解决上述问题。

本发明的一个目的是从多个捕获的对象图像中选择代表性的对象图像，以便涵盖更加全面的对象状态。

本发明的另一个目的是出于对象检索的目的而更加准确和全面性地创建图像数据库。

本发明的还另一个目的是更加准确和全面地检索对象。

在一个方面，本发明提供了一种被配置为从与同一对象相关联的多个对象图像选择至少一个代表性的对象图像的设备，包含分割单元，被配置为根据第一准则将多个对象图像分割为至少一组对象图像；聚类生成单元，被配置为对于所述至少一组对象图像中的每一个，生成对象图像的至少一个聚类，每一聚类对应于对象或对象图像的特征；以及代表性图像选择单元，被配置为对于所述至少一个聚类中的每一聚类，选择关于与该聚类对应的对象或者对象图像的特征的预定数量的代表性对象图像。

在另一方面，本发明提供了一种用于对象图像检索的设备，包括检测单元，被配置为从输入的查询图像检测要被检索的对象；被配置为如上所述地选择对象的至少一个代表性图像的设备；以及检索单元，被配置为检索关于所选择的代表性图像的匹配图像。

在还另一方面，本发明提供了一种从与同一对象相关联的多个对象图像选择至少一个代表性的对象图像的方法，包含分割步骤，用于根据第一准则将多个对象图像分割为至少一组对象图像；聚类生成步骤，用于对于所述至少一组对象图像中的每一个，生成对象图像的至少一个聚类，每一聚类对应于对象或对象图像的特征；以及代表性图像选择步骤，用于对于所述至少一个聚类中的每一聚类，选择关于与该聚类对应的对象或者对象图像的特征的预定数量的代表性对象图像。

在又另一方面，本发明提供了一种用于用户图像检索的方法，包括如下步骤：从输入的查询图像检测要被检索的对象；根据如上所述的方法选择对象的至少一个代表性图像；以及检索关于所选择的代表性图像的匹配图像。

[技术效果]

在一种实现中，本发明提供了一种以所谓的两级处理方式来从与同一对象相关联的多个对象图像选择代表性的对象图像的方法和设备，其中，所述多个对象图像首先被分割成数个组，然后对于每一组对象图像，这些对象图像被过滤以形成对象图像的至少一个聚类，并且对于对象图像的每一聚类选择至少一个代表性图像以用作对象图像检索的基础。

通过这样的两级处理方式(包括分割和聚类形成)，代表性对象图像可被获得作为检索基础，冗余的对象图像可被去除，因此常规上将作为检索基础的巨量的对象图像可被合适地减少为有限数量的代表性对象图像，这些代表性对象图像将预期作为检索基础，从而用于存储对象图像的容量可被减少，基于这样的代表性对象图像的检索效率可被提高，因此存储和处理负载可被高效地降低。

此外，由于代表性对象图像可根据对象或者对象图像本身的特征被获得，因此这样的代表性对象图像可准确地代表具有相似对象状态的对象图像，基于这样的代表性对象图像的检索的准确度将基本不受影响。

在一种实现中，本发明可提供一种用于动态和自适应地从多个对象图像选择代表性图像的方法和设备，其中，该多个对象图像首先根据可被动态和自适应地确定的准则(诸如在视频捕获期间或者视频捕获之后)被分割成数个组，然后可从每一组图像来选择代表性对象图像。

对于此选择，在一种实现中，可从各组对象图像来随机选择预定数量的对象图像作为这样的代表性对象图像。

在这样的情况中，尽管代表性图像被以一步法(one pass way)获得，而不是上述的两级过滤方式被获得，但是与现有技术相比，代表性图像仍可更准确地表示所捕获的对象图像，这是因为图像组是根据从多个图像被动态和自适应地确定的特征被确定的，该特征也可被称为在线特征，并且可以可靠和准确地表示对象或者对象图像的真实特性，而不是现有技术中的预定义的离线特征。

在这种选择的另一种实现中，这样的代表性对象图像可被以与如上述的两级处理方式相似的方式被选择，即每组对象图像可被首先形成为至少一个聚类，然后可从每个聚类选择代表性的图像。

在这样的情况中，对象检索的准确度和速度的平衡可被进一步提高。

当然，对于这样的选择，代表性图像还可被以任何其它方式被选择。

此外，该方法可被应用于实时多人物跟踪算法，并且实现鲁棒的实时跟踪结果。

从参照附图的示例性实施例的以下描述，本发明的其它特征将变得清晰。

附图说明

并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例，并且与描述一起用于解释本发明的原理。在附图中，相似的附图标记指示相似的项目。

图1示出了现有技术中的图像选择的示例。

图2是示出可实现本发明的实施例的计算机系统的示例性硬件配置的框图。

图3是示出根据本发明的第一实施例的选择方法的流程图。

图4是示出根据本发明的第一实施例的对于对象图像组形成聚类的处理的流程图。

图5示出了代表性对象图像的确定。

图6示出了根据本发明的第一实施例从捕获的人物图像示例性地选择代表性人物图像。

图7示出了根据本发明的第一实施例的选择设备。

图8是示出根据本发明的第一实施例的选择方法的流程图。

图9和10是示出根据对象大小选择代表性图像的示例。

图11示出根据本发明的第四实施例的检索方法。

图12示出根据本发明的第四实施例的检索设备。

图13示出了基于现有技术的以及根据本发明的第一实施例的选择方法的检索结果的比较。

具体实时描述

下文将参照附图详细描述本发明的实施例。

应注意，在附图中相似的附图标记和字母指示相似的项目，并且因此一旦一个项目在一个附图中被定义，则对于随后的附图无需再对其进行论述。

为了有助于透彻地并且适当地理解本发明，下文将首先解释本公开的上下文中所使用的术语的含义。

在本公开的上下文中，图像可指的是多种图像中的任一种，诸如彩色图像、灰度图像等。应指出，在本说明书的上下文中，图像的类型未被具体限制，只要这样的图像可在分类器中经受处理以便可检测该图像是否含有对象即可。在本说明书的上下文中，图像含有对象指的是图像含有该对象的对象图像。

此外，图像可以是原始图像或者该图像的经处理的版本，诸如在对图像执行本申请的操作之前已经经受了初步的过滤或者预处理(诸如DCT(离散余弦变换))的图像的版本，

此外，对象在文中可以是人的脸部、手部、身体等中的任一个，并且对象状态可对应于对象的各种姿势、条件等，以及对象所处的各种环境条件。

在本公开中，术语“第一”、“第二”等仅仅用于区分元素或者步骤，而不是要指示时间顺序、优先选择或者重要性。

图2是示出可实施本发明的实施例的计算机系统1000的示例性硬件配置的框图。

如图2所示，计算机系统包括计算机1110。计算机1110包括处理单元1120、系统存储器1130、不可移除非易失性存储器接口1140、可移除非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190、和输出外围接口1195，它们通过系统总线1121连接。

系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它程序模块1136和一些程序数据1137驻留在RAM 1132中。

不可移除非易失性存储器1141(诸如硬盘)连接到不可移除非易失性存储器接口1140。不可移除非易失性存储器1141例如可存储操作系统1144、应用程序1145、其它程序模块1146以及一些程序数据1147。

可移除非易失性存储器(例如软盘驱动器1151和CD-ROM驱动器1155)连接到可移除非易失性存储器接口1150。例如，软盘1152可插入软盘驱动器1151，并且CD(紧致盘)1156可插入CD-ROM驱动器1155。

诸如鼠标1161和键盘1162的输入设备连接到用户输入接口1160。

计算机1110可通过网络接口1170连接到远程计算机1180。例如，网络接口1170可经局域网1171连接到远程计算机1180。可替换地，网络接口1170可连接到调制解调器(调制器－解调器)1172，并且调制解调器1172经广域网1173连接到远程计算机1180。

远程计算机1180可包括诸如硬盘的存储器1181，其存储远程应用程序1185。

视频接口1190连接到监视器1191。

输出外围接口1195连接到打印机1196和扬声器1197。

图2所示的计算机系统仅是说明性的，并且决不打算限制本发明、其应用或者使用。

图2所示的计算机系统可对于任一实施例被实现为孤立计算机，或者设备中的处理系统，其中可去除一个或多个不必要的组件或者可添加一个或多个附加的组件。

[第一实施例]

下文将参照图3描述根据本发明的第一实施例的从与同一对象相关的多个对象图像选择代表性图像的方法和设备，图3是示出本发明的第一实施例的方法的流程图。

在步骤301(还被称为分割步骤)中，多个对象图像根据第一准则被分割成至少一个对象图像组。这里，多个对象图像可与同一对象相关。这里，对象的第一准则可被预先确定或者被动态确定，诸如在多个对象图像的图像捕获期间或者之后。第一准则可以是反映对象或者对象图像的特性的参数，诸如对象或者对象图像的特征。因此，在此方面，第一准则可等同于对象或者对象图像的第一特征。

多个对象图像可以是已经通过视频监控系统被直接捕获的对象图像，或者可被从包含该对象以及其它对象的图像切出的对象图像，而这样的图像切割处理可被以本领域中公知的多种方式实现，出于不使得本发明的技术方案不清楚的考虑，这些方法在此未被具体描述。

因此，对象图像实际上对应于在其中对象占主导的图像。

然后，在步骤302(还被称为聚类生成步骤)中，对于至少一个对象图像组中的每一组，对于该组对象图像，根据对象或者对象图像的特征(还被称为对象或者对象图像的第二准则或者特征)生成对象图像的至少一个聚类。这里，第二准则可被预先确定或者可被动态确定，例如在多个对象图像的捕获期间或者之后。第二准则可以是反映对象或者对象图像的特性的参数，诸如对象或者对象图像的特征，并且可与第一准则属于同一范畴，或者属于不同范畴。

然后，对于至少一个聚类中的每一个，在步骤303(还被称为代表性对象图像选择步骤)中，可从中根据第二准则选择预定数量的代表性对象图像。

下文，将更详细地描述每一步骤中的具体处理。

在分割步骤的处理中，第一准则可包括对象的特征(诸如对象角度、对象大小等等)或者对象图像的特征(诸如时间、图像对比度、图像亮度、图像锐度)中的至少一个。例如，当对象是个人时，这样的个人的第一准则可包括图像中的个人的脸部角度、个人大小、时间、图像对比度、图像亮度和图像锐度中的至少一个。第一准则并不局限于此，并且还可以是反映与对象或者对象图像有关的特性的其它形式。这样的准则可以被以本领域公知的多种方式测量，而为了不使得本发明的方案模糊，这些方式未在文中被具体阐述。

对象图像的分割实际上可根据依赖于第一准则的属性的第一准则的分类方式(即，第一准则能够如何分类)被执行。例如，当第一准则可由值/数值指示时，多个对象图像可被分割成若干个对象图像组，一组对象图像对应于一个值/数值范围，这是因为从各个对象图像导出的值通常可被分成若干范围。当第一准则可被简单地指示为存在或不存在时(诸如对象图像的一些元素的情况)，多个对象图像可被分割为分别对应于该元素的存在和不存在的两个组。因此，第一准则可被以依赖于第一准则的属性的多种方式分类，从而对象图像的分割可根据各个对象图像的第一准则的分类以对应的方式实现。

分割可被以多种方式执行，诸如本领域常用的多种方式，并且下文将描述使用对象图像中的个人的脸部角度作为第一准则的示例。

例如，对于与同一人相关联的多个图像，每一图像中的人的脸部角度如下表所示：

表1：一系列个人图像以及其脸部角度

帧ID	脸部ID	水平角度	垂直角度	特征向量
					101	1	-5°	-12°	{…,0,2,1,0,5,...}
102	2	2°	-20°	{…,0,2,0,2,9,…}
					103	3	5°	-17°	{…,2,3,7,0,3,…}
104	4	8°	-23°	{…,0,1,0,2,2,…}
					105	5	15°	-13°	{…,0,6,1,1,0,…}
106	6	24°	-5°	{…,0,4,0,6,0,…}
					107	7	33°	-8°	{…,0,7,0,2,0,…}
108	8	35°	-12°	{…,1,4,0,2,0,…}
					109	9	36°	-12°	{…,0,4,0,2,0,…}
110	10	32°	-11°	{…,0,4,0,2,1,…}
					…

其中，个人图像由帧ID索引，这样的图像中的人的脸部由脸部ID索引，人的脸部角度由水平角度和垂直角度指示。应指出，个人的脸部角度还可在本领域中公知的其它坐标中被指示。

然后，这一系列个人图像可被分割成多个图像组，每个图像组对应于特定的脸部角度范围，如表2所示。

表2：预定义的图像组的角度范围

图像组ID	水平角度	垂直角度
			IS1	[-45°,-15°)	[-45°,-15°)
IS2	[-15°,15°)	[-45°,-15°)

IS3	[15°,45°]	[-45°,-15°)
			IS4	[-45°,-15°)	[-15°,15°)
IS5	[-15°,15°)	[-15°,15°)
			IS6	[15°,45°]	[-15°,15°)
IS7	[-45°,-15°)	[15°,45°]
			IS8	[-15°,15°)	[15°,45°]
IS9	[15°,45°]	[15°,45°]

这里，这样的脸部角度的特定范围可被预先确定，并且可具有相等的大小。但是，脸部角度的特定范围未被局限于此。例如，在另一实现中，这样的脸部角度的特定范围可根据从个人图像获得的脸部角度分布被确定。例如，从所捕获的多个对象图像，收集和分析各个对象图像中的各自的脸部角度以根据一些公知的算法获得角度分布。然后，对象图像可根据所获得的角度分布被分割。即，脸部角度的特定范围可被确定以符合这样的分布，并且可具有彼此不同的大小。

上述示例描述了针对脸部角度的图像分割，即，根据脸部角度的范围的分割。但是，这样的图像分割可对于一种其它的准则被分割。在其它实现中，对象图像可针对两个或更多个准则被分割成若干种图像组，一种图像组对应于一个准则。

例如，当使用两个或更多个准则来分割对象图像时，可首先使用一个准则来获得若干个对象图像组，而对于每一组，可进一步利用另一准则来获得对象图像的若干子组。因此，对象图像的分割可类似于网格状分割。

然后，这样分割的图像组将转到聚类形成步骤，以被进一步处理。在聚类形成的处理中，对于每一图像组，对象图像的聚类可针对对象或者对象图像的特征形成，每一聚类针对每一特征。

在一种实现中，这样的聚类形成中的特征也可与分割步骤中的第一准则属于同一范畴，但与图像分割中使用的准则不同。例如，这样的聚类形成中的特征可被从对象的一组特征(诸如，对象角度、对象大小等)或者对象图像的特征(诸如，时间、图像对比度、图像亮度、图像锐度等)选择，而与用作第一准则的特征不同。

在另一实现中，这样的聚类形成中的特征可属于与第一准则不同的范畴，并且可包括其他类型的对象属性特征和图像特征。

作为示例，图像特征可包括小波特征(例如，Haar特征)、纹理特征(诸如，LBP特征、SIFT特征、SURF特征和HOG特征)、颜色特征(诸如，HSV特征、RGB特征)中的至少一个，和/或对象属性特征可包括人物的年龄、性别、种族中的至少一个。当然，聚类形成中的对象属性可以是任何其它类型的特征，只要它可以被用于有助于聚类形成即可。

在一种实现中，特征可被动态确定，例如在多个对象图像的获取期间或者之后，即这样的特征可被动态确定，从而根据这样的特征获得的聚类可更准确地反映与对象的实际特性有关的一组类似对象图像。

例如，特征可对应于可能部分阻挡人的脸部的视觉遮蔽件，诸如眼镜、帽子等，而这样的视觉遮蔽件可被动态地确定为要被用于聚类形成的特征。

聚类形成中的特征可与图像分割中的第一准则互换，只要前者可有助于图像分割而后者可有助于聚类形成即可。

用于聚类形成的算法可包括亲和传播聚类(affinity propagationclustering)，k-means聚类等。由于是本领域公知的，因此这样的聚类算法的细节没有在文中详细描述，以避免使得本发明的主旨模糊。

在一种实现中，对于每个图像组，可根据基于对象或者对象图像的特征的相似原则形成聚类，并且作为结果，图像聚类包括对于这样的特征彼此相似的图像。例如，聚类形成可通过计算一组图像中的每对图像之间的相似性、并且保留对于相似性阈值而言相似的图像来实现。

下文，将参照图4描述聚类形成的示例性处理，图4是示出了根据第一实施例的聚类形成的实现的流程图。但是，相似性确定可被以本领域公知的其它方式来实现。

在步骤401中，可对于一组对象图像中的每个图像获取关于该特征的特征矢量。特征的特征矢量可被以本领域公知的多种方式来生成，诸如表1中所示的矢量，并且特征矢量可以是任何维度，只要该特征可通过该特征矢量被准确表示即可。由于特征矢量及其生成属于图像处理中公知的概念，因此其细节在此被省略。

然后，在步骤402中，一组对象图像中的每一对图像之间的关于该特征的相似性值通过利用所获取的特征矢量被计算。

两个图像之间的相似性可被以本领域公知的多种方式来测量。例如，相似性值可对应于对象图像的特征矢量之间的欧几里得距离。

然后，在步骤403中，将所计算的相似性值与相似性阈值进行比较。如果一对图像的相似性值小于该阈值，这样的一对图像被归类到同一聚类中。如果不小于，则这一对图像被丢弃。因此，对象图像的聚类可对于各组对象图像被形成。

然后，对于每一形成的聚类，可从该聚类选择预定数量的代表性图像。预定数量可以是一个或者多于一个。

当预定数量为一个时，所选择的代表性图像可以是如下这样的图像，该图像的特征矢量与该组对象图像中的其余对象图像中的每一个的特征矢量的距离的平方和最小。

图5示出了这样的代表性图像的确定。如图5所示，空心的三角形指的是所选择的代表性图像，其的与其它对象图像(D1到D3，或者D4到D6)中的每一个之间的距离的平方和最小。

当预定数量为多于一个时，所选择的代表性图像可以是与从高到低排列的相似性值的序列中的前预定数量个相似性值对应的图像。

尽管上文描述了预定数量的代表性图像从聚类中针对一个特征(例如，聚类形成所使用的特征)被选择，但是对于一个聚类，代表性图像可针对两个或更多个特征被选择，即，若干代表性图像如上所述地针对每个特征被选择。

最后，由来自每个聚类的预定数量的代表性图像构成的特定数量的代表性图像可被从原始捕获的图像中有效地选择，并且与原始图像进行比较，代表性图像的数量可显著地减小，而基于代表性图像的检索精度没有被显著减小。

以脸部角度为例，代表性人物图像可如图6所示地被选择。

这里，根据本发明的第一实施例的被配置为从与同一对象相关联的多个对象图像选择至少一个代表性对象图像的设备在图7中被示出，其中，该设备700可包括分割单元701，被配置为根据第一准则将多个对象图像分割成至少一组对象图像；聚类生成单元702，被配置为对于该至少一组对象图像中的每一组，生成对象图像的至少一个聚类，每一聚类对应于对象或者对象图像的特征；并且代表性图像选择单元703，被配置为对于该至少一个聚类中的每一个，关于对应于该聚类的该对象或者对象图像的该特征选择预定数量的代表性对象图像。

优选地，聚类生成单元701可进一步包括获取单元7021，其被配置为获取该组对象图像中的每一个图像的关于该特征的特征矢量；以及计算单元7022，其被配置为通过利用所获取的特征矢量计算该组对象图像中的任何一对图像之间的关于该特征的相似性值；其中，如果一对图像的相似性值小于预定阈值，则该对图像被归类于同一聚类。

优选地，代表性图像选择单元703进一步包括单元7031，其被配置为在对象图像的每一个聚类中选择如下一个对象图像作为该聚类的代表性对象图像，该对象图像的特征矢量与对象图像的该聚类中的剩余对象图像中的每一个的特征矢量之间的距离的平方和最小。

作为替代或者附加地，代表性图像选择单元703进一步包括单元7032，其被配置为将对象图像的聚类中的图像的相似性值从小到大地排序，以及单元7033，其被配置为选择与前预定数量的相似性值对应的预定数量的对象图像作为代表性图像。

设备700中的单元可实现上文所述的方法步骤中的处理，因此设备700中的这样的单元的功能也可被反映到方法步骤的处理。

在此实施例中，多个对象图像首先根据准则/特征被分割成数个组，然后对于每一对象图像组，可从中选择代表性图像，该代表性图像可合适地反映每组对象图像的特性，因此与基于全部多个对象图像的检索相比，实际的作为检索基础的图像可被显著减少，基于这样的代表性图像的检索效率可被提高，而准确度是类似的。

特别地，当每个对象图像组被进一步处理以形成至少一个聚类时，每个聚类通常对应于关于图像的特定特征彼此相似的对象图像的集合，从对象图像的聚类选择代表性图像以用作对象图像检索的基础，而冗余的对象图像可被去除，从而存储对象图像所需的容量可被减小，基于这样的代表性图像的检索效率可被提高，因此存储和处理负载可被显著降低。

此外，由于代表性对象图像根据对象或者对象图像本身的特征被获得，这样的代表性图像可准确地反映/代表具有类似状态的若干对象图像，因此基于这样的代表性对象图像的检索的准确度不会受很大影响。

此外，用于聚类形成的特征可被在对象图像的捕获期间和/或之后被动态确定，即这样的特征可被动态确定以更准确地反映对象捕获时的对象的实际特性，因此与使用预定义的对象状态相比，所得到的代表性对象图像可更准确和更全面地反映实际对象状态。在这样的情况中，对于查询图像，与预定义的对象状态相比，对应于更加全面的实际对象状态的对象图像可被检索到。

应指出，这样的动态确定的特征还可被用作分割处理中，而在这样的情况中，后续的聚类形成不是必需的。

特别地，在另一种实现中，本发明还可涉及从多个对象图像动态和自适应地选择代表性动态图像的方法和设备，其中，多个对象图像首先根据可在视频捕获期间和/或之后被动态和自适应地确定的准则/特征被分割成数个组，然后可从每个图像组选择代表性对象图像。

对于这样的选择，在一个实现中，这样的代表性对象图像可被随机选择，并且可以是预定数量的。在另一实现中，这样的代表性图像也可根据对象图像之间的相似性以上文参照图5所述的方式被选择。

考虑到在这样的情况中，尽管代表性图像被以一步法获得，而没有如上述聚类形成中那样被进一步过滤，但是与现有技术相比，代表性图像仍可更准确地反映所捕获的对象图像，这是因为图像组是根据动态和自适应特征(可称为在线特征)确定的，而不是现有技术中那样的预定义的离线特征。

在另一实现中，这样的代表性对象图像可进一步以与上文的两步式处理方式中的方式类似的方式被选择，即每个图像组可首先被形成至少一个聚类，并且然后可从每个聚类选择代表性图像。

在这样的情况中，对象检索的准确度和速度的平衡可被进一步改善。

[第二实施例]

下文，将描述本申请的用于从与同一对象相关的多个对象图像选择代表性图像的实施例，其中根据第二实施例的选择是基于各个对象图像中的对象大小的。

这样的情况通常对应于如下情况：在拍摄区域的不同部分中亮度不存在显著差别，而仅仅人与照相机之间的距离需要被考虑。在一种实现中，人和照相机之间的距离可被划分成预定数量的大小范围，然后对象图像可根据其中对象大小被划分成对象图像的至少一个组。

首先，多个对象图像根据对象大小的范围被分成为若干图像组，每个图像组对应于一个对象大小范围，如在步骤801中。

在如图9所示的一个示例中，拍摄区域被示出为扇形，并且可被分成两个距离范围(对应于两个网格)，距离范围1和2，其中距离范围1对应于对象大小60到200，而距离范围2对应于对象大小1到60。应指出，这两个距离范围仅是示例性的，拍摄区域可被划分为任何其它数量的距离范围。

然后，多个对象图像将根据各自其中的对象大小被划分成两组图像，每组图像对应于距离范围1和2之一。

接下来，可从所划分的对象图像组选择代表性图像，以供图像检索等使用。代表性图像的选择可根据对象或者对象图像的特征(诸如对象的脸部角度的范围等)被选择，并且选择方式未被具体限制。

优选地，在步骤802中，对于每组对象图像，该组对象图像可被处理以便形成聚类，并且在步骤803中，可从每个聚类选择代表性对象图像。

应指出，步骤802和803中的处理可类似于上文所述的聚类形成和代表性图像选择的处理，诸如参照302和303所描述的处理，它们的描述在此被省略。

特别地，在步骤802中，用于聚类形成的特征可被预先确定，或者被动态和自适应地设定。作为示例，用于聚类形成的特征可以是脸部角度，因此聚类可进一步对应于脸部角度相似聚类。

在另一实现中，拍摄区域的每个网格可被进一步划分为若干子网格，因此拍摄区域可被精细地划分为更多子网格。

作为图10中所示的示例，拍摄区域首先被划分为对应于三个脸部大小范围：30～60,60～100以及100～200的三个区域，然后每个区域可根据另一准则(诸如，拍摄条件，当然还可考虑其它准则)被进一步分割成子网格，例如网格1-10，这样的情况可对应于如下情况，即如果拍摄条件的改变未知、则可使用拍摄区域的网格，并且网格的单元可足够小并且认为没有发生条件改变。并且在这样的情况中，对象图像组可根据对象大小和拍摄条件范围两者被分割，如图10所示。

然后，所分割的对象图像的组可被进一步如上所述地处理。

在这样的实施例中，对象图像可根据对象大小或者对象大小和拍摄条件两者被分割，使得对象图像可被更灵活地分割，从而位于不同位置的诸如人物的对象可被更准确地检测。

第二实施例中的处理也可被反映在与第一实施例中的设备相似的设备中，因此根据第二实施例的设备也可包括与单元701、702和703类似的单元，其中与单元701类似的单元可根据对象大小或者对象大小和拍摄条件两者执行分割。

[第三实施例]

下文，将描述根据本发明的第三实施例的对象数据库登记的方法。

对于从照相机捕获的多个对象图像，该多个对象图像可通过根据第一实施例的方法被处理，使得从该多个对象图像选择预定数量的代表性对象图像。

然后，所选择的代表性对象图像被登记到数据库中，从而数据包括有限数量的代表性对象图像作为检索基础。例如，当查询图像被输入时，这样的数据库可被扫描以找到与查询图像匹配的对象图像作为查询图像的扩展图像，并且这样的扩展图像将作为对象检索的基础，并且可被用于提高对象检索的效率和准确度。

根据这样的对象数据库登记，由于代表性图像的数量可相对于原始对象图像显著减小，用于存储对象图像的数据库的容量可被显著减小，因此存储需求得到缓解。

第三实施例中的处理也可被反映在设备中，而除了根据第一或第二实施例的设备之外，根据第三实施例的设备还进一步包括用于将所选择的代表性对象图像登记到图像数据库中以便用作检索基础的单元。

[第四实施例]

下文，将参照附图描述根据本申请的第四实施例的图像检索方法和设备。

首先，从输入的查询图像来检测要被检索的对象(步骤1101)。查询图像是包括要被检索的对象(诸如要被找寻的个人)的图像。因此，对象图像可被从查询图像获取，其可仅包含对象。例如，个人图像可以是仅包含人的脸部的图像。

这样的检测过程可被以本领域公知的多种方式实现，因此其详细描述在此被省略，以免使得本发明的主旨模糊。

然后，根据上文在第一和第二实施例中描述的方法获得对象的至少一个代表性图像。这样的代表性图像被用作对象图像的扩展图像以作为检索基础(步骤1102)。

该代表性对象图像可被从在查询图像输入之前已经被捕获并且已经被登记到数据库中以用于检索的对象图像中选择。

作为替代，该代表性对象图像可被从在查询图像输入之后(例如在预定时间段上)预期被捕获的并且可被登记到数据库中以用于检索的对象图像中被选择。此情况也可被称为实时对象选择和检索。例如，在查询图像被输入并被进行处理以检测并获得对象图像的一段时间期间，照相机可在后台持续拍摄对象图像，此时所拍摄的对象图像将被用于选择代表性对象图像以进行检索。

这样的至少一个代表性对象图像可以是如在上述第一和第二实施例中那样从在对象捕获期间和/或之后的多个对象图像选择的对象的所有代表性图像。作为替代地，这样的至少一个代表性对象图像可以是如在上述第一和第二实施例中那样选择的对象的代表性图像的一部分，诸如每个聚类中的最具代表性的对象图像的集合，或者每个聚类中的前预定数量个代表性对象图像。

然后，对于所获得的扩展图像获得至少一个匹配图像(S1103)。

匹配图像可以从上述的用于生成代表性图像的对象图像集合中获得，或者也可从与上述的用于生成代表性图像的对象图像不同的其它对象图像集合中获得。

匹配图像的确定可被以本领域公知的多种方式来执行。例如，匹配图像可基于要被检索的图像与扩展图像之间的相似性被确定。

相似性计算可被以多种方式来实现。例如，相似性可被计算为两个图像之间的特征矢量之间的欧几里得距离，相似性得分越小，则两个图像越相似。应指出，其它类型的相似性得分也可被计算。

下文，将描述基于相似性的匹配图像的确定。

首先，通过所选择的代表性图像生成多个查询，其中所生成的查询是每个所选择的代表性图像中所提取的对象的特征，并且可被表示为特征矢量。例如，这样的特征矢量可以是LBP特征矢量。

然后，将特征用作多个查询，并且对于每个查询，与该查询类似的图像可基于要被检索的图像和代表性对象图像之间的对于该查询的相似性被获取。

然后，所获取的每个查询的图像被合并，并根据相似性得分被排序。通常，其相似性得分高于阈值的图像将是匹配图像。

从图像检索的上下文可清楚，多个对象图像可以是用于选择代表性图像的训练集合，并且代表性对象图像可被用作关于其它图像的检索的基础。

这里，图12中示出根据本发明的第四实施例的图像检索设备，并且设备1200可包括检测单元1201，其被配置为从输入查询图像检测要被检索的对象；单元1202，其被配置为选择对象的至少一个对象图像，以及检索单元1203，被配置为相对于所选择的代表性图像检索匹配图像。

上述单元1202可通过根据本发明的第一或第二实施例的设备来实现。

根据这样的图像检索，由于代表性图像的数量与原始对象图像相比显著减小，并且这样的代表性图像将作为图像检索的基础，检索速度可显著提高。

此外，由于这样的代表性图像可涵盖对象的大部分状况，检索准确度可与基于全部原始对象图像的检索的准确度差不多。

另外，与其中用于检索的图像是预先定义且固定的现有技术相比，由于本发明的代表性图像是根据多个对象图像自适应确定的，因此通过本发明的方案可获得更全面的人物图像，并且检索准确度可被提高。

[工业应用性]

本发明可被用于多种应用中。例如，本发明可被用于检测和跟踪通过照相机捕获的静态图像或者运动视频中对象，并且对于配备有照相机的便携式设备、(基于照相机的)手机是尤其有利的。

应指出，文中所述的方法和设备可被实现为软件、固件、硬件或它们的任何组合。例如，有些组件可被实现为在数字信号处理器或者微处理器上运行的软件。例如，其他组件可被实现为硬件和/或专用集成电路。

另外，可采用多种方式来实行本发明的方法和系统。例如，可通过软件、硬件、固件或它们的任何组合来实行本发明的方法和系统。上文所述的该方法的步骤的顺序仅是说明性的，并且除非另外具体说明，否则本发明的方法的步骤不限于上文具体描述的顺序。此外，在一些实施例中，本发明还可具体化为记录介质中记录的程序，包括用于实施根据本发明的方法的机器可读指令。因此，本发明还涵盖了存储用于实施根据本发明的方法的程序的记录介质。

虽然已经参考示例实施例描述了本发明，应当理解，本发明不限于公开的示例实施例。下面的权利要求的范围将被给予最宽泛的解释，以便包含所有这些修改以及等同结构和功能。

Claims

1.一种被配置为从与同一对象相关联的多个对象图像选择至少一个代表性对象图像的设备，其特征在于，所述设备包括：

分割单元，被配置为根据第一准则将所述多个对象图像分割成至少一个对象图像组；

聚类生成单元，被配置为对于所述至少一个对象图像组中的每一组，生成至少一个对象图像聚类，每一对象图像聚类对应于对象或者对象图像的特征；以及

代表性对象图像选择单元，被配置为对于所述至少一个对象图像聚类中的每一个，关于对应于该对象图像聚类的对象或者对象图像的该特征选择预定数量的代表性对象图像。

2.根据权利要求1所述的设备，其中，所述第一准则是反映对象或者对象图像的特性的参数。

3.根据权利要求1所述的设备，其中，所述第一准则是对象大小。

4.根据权利要求1到3中的任一个所述的设备，其中，所述代表性对象图像选择单元进一步包括：

被配置为在每个对象图像聚类中选择一个对象图像作为该对象图像聚类的代表性对象图像的单元，所述一个对象图像的特征矢量与该对象图像聚类中的其余对象图像中的每一个的特征矢量之间距离的平方和最小。

5.根据权利要求1到3中的任一个所述的设备，其中，所述聚类生成单元进一步包括：

获取单元，被配置为获取该对象图像组中的每一个图像的关于该特征的特征矢量；以及

计算单元，被配置为通过利用所获取的特征矢量计算该对象图像组中的任何一对图像之间的关于该特征的相似性值；

其中，如果一对图像的相似性值小于预定阈值，则该对图像被归类于同一聚类。

6.根据权利要求5所述的设备，其中，相似性值对应于两个对象图像的特征矢量之间的欧几里得距离。

7.根据权利要求1到3中的任一个所述的设备，其中，所述代表性对象图像选择单元进一步包括：

被配置为将对象图像聚类中的对象图像的相似性值从小到大地排序的单元，以及

被配置为选择与前预定数量个相似性值对应的预定数量的对象图像作为代表性对象图像的单元。

8.根据权利要求1到3中的任一个所述的设备，进一步包括：

被配置为将所选择的代表性对象图像登记到图像数据库中的单元。

9.根据权利要求1所述的设备，其中，第一准则和该对象或对象图像的特征属于同一范畴。

10.根据权利要求1所述的设备，其中，第一准则和/或该对象或对象图像的特征在所述多个对象图像的获取期间和/或之后被动态确定。

11.根据权利要求1所述的设备，其中，对象或者对象图像的特征包括对象属性特征和图像特征中的至少一个，并且其中，图像特征包括小波特征、纹理特征、颜色特征中的至少一个，和/或对象属性特征包括人物的年龄、性别和种族中的至少一个，和/或

其中，第一准则包括对象角度、对象大小、时间、图像对比度、图像亮度和图像锐度中的至少一个。

12.一种用于图像检索的设备，包括：

检测单元，被配置为从输入的查询图像检测要被检索的对象；

被配置为选择对象的至少一个代表性图像的根据权利要求1到11中的任一个所述的设备；以及

检索单元，被配置为检索所选择的代表性图像的匹配图像。

13.根据权利要求12所述的设备，其中，所述至少一个代表性图像是从查询图像被输入之前或之后获取的多个对象图像之中选择的。

14.一种被配置为从与同一对象相关联的多个对象图像选择至少一个代表性对象图像的方法，其特征在于，所述方法包括：

分割步骤，用于根据第一准则将所述多个对象图像分割成至少一个对象图像组；

聚类生成步骤，用于对于所述至少一个对象图像组中的每一组，生成至少一个对象图像聚类，每一对象图像聚类对应于对象或者对象图像的特征；以及

代表性对象图像选择步骤，用于对于所述至少一个对象图像聚类中的每一个，关于对应于该对象图像聚类的对象或者对象图像的该特征选择预定数量的代表性对象图像。

15.一种用于图像检索的方法，包括：

检测步骤，用于从输入的查询图像检测要被检索的对象；

用于根据权利要求14所述的方法选择对象的至少一个代表性图像的步骤；以及

检索步骤，用于检索所选择的代表性图像的匹配图像。