CN110019872B

CN110019872B - 索引装置和方法、对象图像检索装置和方法以及监视系统

Info

Publication number: CN110019872B
Application number: CN201711391611.3A
Authority: CN
Inventors: 那森; 黄耀海; 谭诚
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2023-08-22
Anticipated expiration: 2037-12-21
Also published as: CN110019872A

Abstract

本发明公开一种索引装置和方法、对象图像检索装置和方法以及监视系统。所述对象图像检索装置包括：对象检测单元，被构造为从输入图像中检测对象图像；类簇确定单元，被构造为基于检测到的对象图像和根据索引装置获得的索引，从对应的容器中确定多个类簇；以及对象图像确定单元，被构造为在多个类簇内确定多个针对检测到的对象图像的对象图像，其中，所述对象图像确定单元包括：对象图像选择单元，被构造为在多个类簇内选择候选对象图像；以及对象图像整合单元，被构造为对候选对象图像进行整合，以确定多个针对检测到的对象图像的对象图像。根据本发明，将改进用于对象图像检索的索引，从而将提高对象图像检索的检索召回率。

Description

索引装置和方法、对象图像检索装置和方法以及监视系统

技术领域

本发明涉及图像检索，具体地涉及例如索引装置和方法、对象图像检索装置和方法以及监视系统。

背景技术

在视频监视期间，为了监控特定位置(诸如，机场、超市、主要街道等)中的特定对象(例如，特定人)，通常使用对象图像检索技术，从拍摄的视频帧中检索针对特定对象的对应的对象图像。

通常，对象图像检索技术包括索引处理和检索处理。日本专利JP05155025中公开了一种示例性技术，所述示例性技术包括：对于索引处理，基于登记图像中的对象的特征，将从拍摄的视频帧中获得的所有登记图像聚类到多个类簇中，并基于类簇的中心生成索引；对于检索处理，基于输入图像和所生成的索引来确定与输入图像或查询图像(诸如，针对特定对象的图像，下文中称为“输入图像”)相似的对应类簇，并通过将输入图像与确定的类簇内的每个登记图像进行比较来从确定的类簇中检索与输入图像相似的对应的登记图像(即，对应的对象图像)。

然而，在视频监视期间，对应的广域视频监视系统总是拍摄并记录许多不同条件的视频，诸如光照环境、时间可变场景、对象情况可变场景和不同相机传感器等。换言之，在视频监视期间将获得不同条件的视频帧。也就是说，在上述索引处理期间，登记图像中的对象的特征将因不同条件而受到影响。因此，在上述检索处理期间，为了获得与输入图像相似的对应的对象图像(即，对应的登记图像)，需要将确定的类簇内的登记图像分别与输入图像进行比较。条件与输入图像相同的登记图像总是比条件与输入图像不同的登记图像更像输入图像，甚至条件不同的登记图像可能无法被检索为与输入图像相似的图像，这将减小检索召回率。

发明内容

因此，鉴于上面的背景技术中的记载，本公开旨在解决上述问题。

根据本发明的一个方面，提供一种对象图像检索装置，所述对象图像检索装置包括：对象检测单元，被构造为从输入图像中检测对象图像；类簇确定单元，被构造为基于检测到的对象图像和根据索引装置获得的索引，从对应的容器中确定多个类簇；以及对象图像确定单元，被构造为在所述多个类簇内确定多个针对所述检测到的对象图像的对象图像，其中，所述对象图像确定单元包括：对象图像选择单元，被构造为在所述多个类簇内选择候选对象图像；及对象图像整合单元，被构造为对所述候选对象图像进行整合，以确定所述多个针对所述检测到的对象图像的对象图像。

利用本发明，将提高对象图像检索召回率。

根据以下参照附图的描述，本发明的其他特性特征和优点将显而易见。

附图说明

包含在说明书中并构成本说明书的一部分的附图例示本发明的实施例，并与文字描述一起用于解释本发明的原理。

图1是示意性地示出可实现根据本发明实施例的技术的硬件结构的框图。

图2是例示根据本发明实施例的索引装置的结构的框图。

图3示意性地示出根据本发明的示例性对象图像。

图4示意性地示出根据本发明实施例的索引处理的流程图。

图5A至图5D示意性地示出根据本发明的示例性对象图像分类。

图6示意性地示出根据本发明确定的示例性类簇。

图7是例示根据本发明实施例的对象图像检索装置的结构的框图。

图8示意性地示出根据本发明实施例的对象图像检索处理的流程图。

图9例示根据本发明实施例的示例性监视系统的布置。

具体实施方式

下面将参照附图详细描述本发明的示例性实施例。应注意，下面的描述实质上仅为说明性和示例性的，并且决不意图限制本发明及其应用或用途。除非另有具体说明，否则实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本发明的范围。另外，本领域技术人员已知的技术、方法和设备可能不会被详细地讨论，但在适当的情况中其应当是本说明书的一部分。

请注意，相似的附图标记和字母指代附图中相似的项目，因此，一旦一个项目在一个附图中被定义，则不必在下面的附图中对其进行讨论。

在上述对象图像检索技术中，在不同条件下拍摄的登记图像(即，如本发明所述的对象图像)将直接影响对象图像检索的检索召回率。

一方面，在视频监视期间，在检索监视区域中的对象(例如，特定人)的情况下，用户不仅想知道对象是否曾到达过，还想知道更多详细信息，诸如，他或她曾到达的时间和地点。因此，需要更多关于对象的检索结果。在一个实例中，有一个特定人在不同时间区间中到达监视区域四次。该特定人每次到达都可被视为一种关注场景。显然，所有检索结果均来自同一关注场景并非用户期待的结果。因此，发明人考虑如何为用户找到这四个关注场景。

另一方面，在广域视频监视系统中，有许多不同的条件。因此，在索引处理期间，对象图像的特征向量值会受到不同条件的影响。然后，在检索处理期间，输入图像总是与在相同条件或相似条件下拍摄的对象图像更像。因此，发明人提出并公开一种通过优化类簇结构而快速索引的方法。首先，获得由至少一个相机拍摄的对象图像；根据相机的关注场景将拍摄的对象图像分类到多个容器中；然后分别对每个容器的对象图像建立索引；此后，获得输入图像并检索每个容器中是否存在与输入图像相似的对象图像。

根据本发明，不同关注场景的对象图像存储在多个容器中，用于获得进行对象图像检索的索引。因此，本发明减小了登记对象图像的不同关注场景的影响，并且提高了对象图像检索的检索召回率。

(硬件结构)

首先，将参照图1描述可实现下文中描述的技术的硬件结构。图1是示意性地示出可实现根据本发明实施例的技术的硬件结构100的框图。

硬件结构100例如包括中央处理单元(CPU)110、随机存取存储器(RAM)120、只读存储器(ROM)130、硬盘140、输入设备150、输出设备160、网络接口170和系统总线180。此外，硬件结构100可由诸如平板电脑、笔记本电脑、台式电脑或其他合适的电子设备实现。

在第一实现方式中，根据本发明的索引处理和检索处理由硬件或固件构造并且用作硬件结构100的模块或组件。例如，将在下文参照图2详细描述的索引装置200和将在下文参照图7详细描述的对象图像检索装置700用作硬件结构100的模块或组件。在第二实现方式中，根据本发明的索引处理和检索处理由存储在ROM 130或硬盘140中且由CPU 110执行的软件构造。例如，将在下文参照图4详细描述的索引过程400或将在下文参照图8详细描述的对象图像检索过程800用作存储在ROM 130或硬盘140中的程序。

CPU 110是任意合适的可编程控制设备(诸如，处理器)，并且可通过执行存储在ROM 130或硬盘140(诸如，存储器)中的各种应用程序来执行将在下文描述的各种功能。RAM120用于临时存储从ROM 130或硬盘140加载的程序或数据，并且也被用作CPU 110在其中执行各种过程(诸如，实施将在下文中参照图4和图8详细描述的技术)以及其他可用功能的空间。硬盘140存储诸如操作系统(OS)、各种应用、控制程序以及由制造商预存储或预定义的数据等多种信息，其中，所述数据可以是例如将在下文中描述的预定义对象类型和预定义阈值(THs)。

在一种实现方式中，输入设备150用于允许用户与硬件结构100交互。在一个实例中，用户可通过输入设备150输入图像/视频/数据。在另一实例中，用户可通过输入设备150触发本发明的对应的索引处理和/或对应的检索处理。此外，输入设备150可采用多种形式，诸如按钮、键盘或触摸屏。在另一种实现方式中，输入设备150用于接收从诸如数码相机、摄像机和/或网络相机等专门电子设备输出的图像/视频。

在一种实现方式中，输出设备160用于向用户显示检索结果(诸如，针对输入图像的相似对象图像)。而且，输出设备160可采用诸如阴极射线管(CRT)或液晶显示器等各种形式。在另一种实现方式中，输出设备160用于将获得的索引输出到存储设备(例如，ROM 130、硬盘140或外部服务器)，或者用于将获得的索引输出到后续操作，例如，检索处理。

网络接口170提供用于将硬件结构100连接到网络的接口。例如，硬件结构100可经由网络接口170与经由网络连接的其他电子设备(诸如，图9中所示的图像获取装置910)进行数据通信。另一种选择是，可以为硬件结构100提供无线接口以进行无线数据通信。系统总线180可提供用于在CPU 110、RAM 120、ROM 130、硬盘140、输入设备150、输出设备160和网络接口170等之间相互传输数据的数据传输路径。虽然被称为总线，但是系统总线180并不限于任何特定的数据传输技术。

上述硬件结构100仅为说明性的，并且决不意图限制本发明、其应用或用途。而且，为了简明起见，在图1中只示出一个硬件结构。但是，根据需要也可以使用多个硬件结构。

(索引处理)

(第一实施例)

接下来，将参照图2至图6描述根据本发明的检索处理。

图2是例示根据本发明实施例的索引装置200的结构的框图。其中，图2中所示的部分或全部模块可由专用硬件实现。

如图2中所示，索引装置200包括对象图像获得单元210、分类单元220、类簇确定单元230和索引获得单元240。

首先，图1中所示的输入设备150获取由用户输入或从可由至少一个特定电子设备(诸如，摄像机)输出的视频信息中获得的多个对象图像。在该实施例中，一个所获取的对象图像对应于一个对象。以图3中所示的图像300为例，面部图像310、320和330是在本发明中提到的对应的对象图像，其中图像300可被视为包括三个对象图像的视频帧。换言之，在本发明中，一个对象图像(例如，面部图像310)中只有一个对象。如上所述，同一对象可为特定人(例如，特定人的面部或特定人的身体)。然后，输入设备150经由系统总线180将所获取的对象图像传输到对象图像获得单元210。

如图2中所示，对象图像获得单元210通过系统总线180从输入设备150中获得所获取的对象图像(即，多个对象图像)。

然后，分类单元220根据不同关注场景将对象图像分类到多个容器中。即，在不同关注场景中拍摄的对象图像将被分类到多个容器中，其中每个关注场景具有一个对应的容器。

为了更好地理解如何根据不同条件的不同关注场景将对象图像分类到多个容器中，本发明参照图5A至图5D示出一些示例。

在一种实现方式中，图5A示意性地示出根据一个相机的时间可变场景的示例性对象图像分类。即，由于光照环境条件在不同的时间区间内不同，因此相机的关注场景可基于预定义时间区间来确定。例如，早上(例如，7:00～9:00)的时间区间可为关注场景；中午(例如，11:00～14:00)的时间区间可为另一关注场景，此外，晚上的时间区间可为又一关注场景。因此，监视系统可验证特定人是否在每个时间区间内都曾到访过。如图5A中所示，分类单元220可将不同时间区间的对象图像分类到多个容器中。在对象图像是由相机在早上拍摄的情况下(例如，对象图像501、502和503)，分类单元220如图5A中所示将这些对象图像分类到容器M中；在对象图像是由相机在中午拍摄的情况下(例如，对象图像504、505和506)，分类单元220如图5A中所示将这些对象图像分类到容器N中。此外，在对象图像是由相机在晚上拍摄的情况下，分类单元220可将这些对象图像分类到另一容器中，所述容器与容器M和容器N不同并且未在图5A中显示。

此外，在对象图像是由同一相机在不同日期的同一时间区间(例如，如上所述的7:00～9:00的早上)拍摄的情况下，同一相机在另一天拍摄的、同一时间区间中的对象图像也可被分类到同一容器(例如，如上所述的容器M)中。

图5B示意性地示出根据监视设备可变场景的示例性对象图像分类。监视设备可变场景包括相机类型(例如，广角)或监视区域类型(例如，室内或室外)中的至少一者。在广域视频监视系统的一个实例中，对象图像可根据不同的关注场景和/或多相机监视系统的相机数量而被分类到多个容器中。此处，假设关注场景仍为如上所述的时间可变场景(例如，预定义时间区间)，并且假设在多相机监视系统中，如图5B中所示，对象由两个相机510和520在诸如早上(例如，7:00～9:00)或中午(例如，11:00～14:00)或晚上(例如，19:00～21:00)的不同时间区间拍摄。例如，如图5B中所示，六个对象图像511～516由相机510拍摄，而另外六个对象图像521～526由相机520拍摄，因此，根据时间区间和相机，分类单元220可将对象图像分类到四个容器中。换言之，如图5B中所示，由相机510在时间区间7:00～9:00拍摄的三个对象图像511～513将被分类到容器M1中。由相机510在时间区间9:00～11:00拍摄的三个对象图像514～516将被分类到容器N1中。由相机520在时间区间7:00～9:00拍摄的三个对象图像521～523将被分类到容器M2中。由相机520在时间区间9:00～11:00拍摄的三个对象图像524～526将被分类到容器N2中。

在另一种实现方式中，图5C示意性地示出根据对象情况可变场景的示例性对象图像分类。分类单元220可根据相机的对象情况可变场景将对象图像分类到多个容器中，此处，关注场景可为安装在人行道处的相机中的对象情况(例如，移动方向)。所述移动方向可基于人体跟踪技术根据对象移动跟踪来确定。因此，在人行道上有两种移动方向，即，一些对象从左到右经过相机，而另一些对象从右到左经过相机。例如，如图5C中所示，相机拍摄的对象图像531～533移动方向为从左到右并且将被分类到容器L中。相机拍摄的对象图像534～536移动方向为从右到左并且将被分类到容器R中。

此外，图5D示意性地示出根据对象情况可变场景的另一示例性对象图像分类。即，在对象情况是从远到近移向相机的情况下，对象的尺寸也从小变大，因此相机从远处拍摄的对象图像与从近处拍摄的对象图像不同。例如，如图5D中所示，相机540从远处拍摄对象图像541并且从近处拍摄对象图像542。因此，在不同位置处拍摄的对象图像可被分类到多个容器中。换言之，如图5D中所示，对象图像541可被分类到容器F中，而对象图像542可被分类到容器S中。

在又一种实现方式中，分类单元220可根据相机的传感器参数可变场景将对象图像分类到多个容器中，此处，关注场景为相机传感器参数。监视相机传感器能够针对变化的环境自动改变其参数。例如，相机可针对不同的光照条件改变白平衡设置，或改变景深从而以较高画质拍摄对象图像，或改变拍摄角度以拍摄更重要的对象图像。因此，分类单元220可根据相机传感器参数将对象图像分类到多个容器中。例如，白平衡值为2000k的对象图像将被分类到一个容器中，而白平衡值为4000k的对象图像可被分类到另一容器中。

在再一种实现方式中，分类单元220可根据相机的设备可变场景将对象图像分类到多个容器中，此处，关注场景为相机的设备可变场景，其中每个场景均具有一个对应的容器。相机信息(诸如，标准角、广角)可从相机获得。因此，由标准角相机拍摄的对象图像将被分类到同一容器中，而由广角相机拍摄的对象图像将被分类到另一器中。另一方面，相机信息还包括监视区域，诸如，室内或室外。因此，由室内相机拍摄的对象图像将被分类到同一容器中，而由室外相机拍摄的对象图像将被分类到另一容器中。

最终，分类单元220根据不同的关注场景将对象图像分类到多个容器中，即，对象图像根据相机或多相机监视系统的关注场景被存储在对应的容器中。

如图2中所示，在分类单元220根据不同的关注场景将对象图像分类到多个容器中之后，类簇确定单元230通过基于每个容器中的对象图像中的对象的特征对对象图像进行聚类来确定多个第一类簇，其中所述类簇内的对象图像具有共同特性。并且，共同特性为对象图像对应于同一对象(例如，特定人)。

类簇确定单元230基于对象图像中的对象的特征对对象图像进行聚类。其中，对象图像中的对象的特征可以是可直接从对应的对象图像获得的对象的小波特征、纹理特征、颜色特征、视觉词袋，和/或所述特征可以是可通过现有的语义分析算法从对应的对象图像获得的对象的语义特征。例如，对象的小波特征为哈尔(Haar)特征，对象的纹理特征为局部二值模式(LBP)特征、尺度不变特征变换(SIFT)特征、方向梯度直方图(HOG)特征，而颜色特征为色度饱和值(HSV)、RGB特征。对象的语义特征例如为人类属性(例如，年龄属性，性别属性，种族属性)。

在一种实现方式中，类簇确定单元230通过将每个容器中的至少任意两个对象图像中的对象之间的特征的相似性度量(例如，相似性度量1)与预定义阈值(例如，TH1)进行比较，来确定是否将这两个对象图像聚类到同一类簇中。更具体地，类簇确定单元230首先提取每个对象图像中的对象的特征。接着，对于每个容器中的任意两个对象图像，类簇确定单元230通过现有的聚类算法(例如，亲和传播聚类算法，K均值聚类算法)，计算这两个对象图像中的两个对象之间的特征的相似性度量1。然后，对于每个容器中的任意两个对象图像，类簇确定单元230将相似性度量1与TH1进行比较。例如，在相似性度量1大于或等于TH1的情况下，这两个对象图像将被聚类到同一第一类簇中。

图6示意性地示出根据本发明在一个容器600中确定的第一类簇。如图6中所示，区域610-630示意性地示出几个示例性类簇。其中，区域610/620/630中的三角形611/621/613表示对应的第一类簇的中心，并且区域610/620/630中的黑点表示聚类到对应的第一类簇中的对应的对象图像。

此外，在多相机监视系统中，为了提高检索处理的速度，类簇确定单元230根据每个容器中的第一类簇的中心，进一步确定至少一个第二类簇。聚类方法可与上述聚类第一类簇的方法相同，例如，诸如K均值聚类算法的聚类算法。因此，第二类簇至少可包含对应的第二类簇的中心、对应的第一类簇的特征或对应的对象图像的特征。

在一种实现方式中，对于每个容器中的第一类簇的中心中的至少两者，将对应于这两个第一类簇的中心之间的特征的相似性度量(例如，相似性度量2)与预定义阈值(例如，TH2)进行比较，在相似性度量2大于或等于TH2的情况下，类簇确定单元230确定第二类簇。并且，相似性度量2也可通过现有的聚类算法计算。

在一种实现方式中，对于所有容器中的第一类簇的中心中的至少两者，将对应于这两个第一类簇的中心之间的特征的相似性度量(例如，相似性度量3)与预定义阈值(例如，TH3)进行比较，在相似性度量3大于或等于TH3的情况下，类簇确定单元230确定第二类簇。并且，相似性度量3也可通过现有的聚类算法计算。

如图2中所示，在类簇确定单元230在每个容器中确定第一类簇或第一类簇和第二类簇之后，索引获得单元240基于所有容器中的第一类簇内的对象图像获得索引。此外，为了在检索处理期间通过使用获得的索引来提高检索速度及检索更多的与输入图像相似的对象图像，索引获得单元240还可基于所有容器中的第二类簇内的第一类簇的中心获得索引。因此，基于所有容器中的对象图像获得的索引包括以下项目中的至少一者：第一类簇的中心、第二类簇的中心、第一类簇内的对象图像的特征或第二类簇内的第一类簇内的对象图像的特征、第一类簇内的对象图像或第二类簇内的对象图像。

另外，在一种实现方式中，由索引获得单元240获得的索引只包括一层类簇(即，第一类簇)。在该条件下，索引通过至少存储上述第一类簇的中心、从每个容器中的对应的第一类簇中确定的对象图像和对象图像的特征直接形成。

在另一种实现方式中，由索引获得单元240获得的索引包括两层类簇(即，第一类簇和第二类簇)。在该条件下，索引通过至少存储上述第二类簇的中心、第一类簇的中心、从每个容器中的对应的第一类簇和第二类簇中确定的对象图像及对象图像的特征形成。

最后，在索引获得单元240获得对应的索引之后，索引获得单元240经由系统总线180将获得的索引传输到图1所示的输出设备160，以将获得的索引输出到存储设备(例如，ROM 130、硬盘140或外部服务器)或用于将获得的索引输出到后续操作，例如检索处理。

(第二实施例)

接下来，将参照图4描述由图2中所示的索引装置200的结构执行的总处理。图4示意性地示出根据本发明实施例的索引处理的流程图400。

如上所述，首先，图1所示的输入设备150获取多个对象图像。其中，在该实施例中，一个所获取的对象图像对应于一个对象，并且所获取的对象图像中的几个对象图像可对应于同一对象(例如，特定人)。接着，输入设备150经由系统总线180将所获取的对象图像传输到对象图像获得单元210。

然后，如图4中所示，在对象图像获得步骤S410中，对象图像获得单元210通过系统总线180从输入设备150中获得多个对象图像。

在分类步骤S420中，分类单元220根据不同的关注场景将对象图像分类到多个容器中。关注场景可为如上参照图5A所述的至少一个相机的时间可变场景，例如，早上、中午或晚上的时间区间。关注场景可为如上参照图5B所述的监视设备可变场景，例如，多相机监视系统中的至少两个相机。关注场景可为如上参照图5C所述的至少一个相机的对象情况可变场景，例如，经过相机的左右移动方向或相对于相机的远近移动方向。关注场景可为如上所述的至少一个相机的传感器参数可变场景，例如，白平衡设置、景深、拍摄角度。关注场景也可为如上所述的至少一个相机的设备可变场景，例如，标准角和广角。其中，具有同一关注场景的对象图像可被分类到同一对应的容器中。

在类簇确定步骤S430中，类簇确定单元230在每个容器内确定多个第一类簇，其中所述容器内的对象图像如上所述具有共同特性和特征。聚类方法与上述方法相同，此处将不再重复详细的描述。

此外，在多相机监视系统中，类簇确定单元230根据每个容器中的第一类簇的中心进一步确定至少一个第二类簇。聚类方法与上述方法相同，此处将不再重复详细的描述。

然后，如图4中所示，在索引获得步骤S440中，索引获得单元240基于所有容器中的第一类簇内的对象图像获得索引。此外，为了在检索处理期间通过使用获得的索引来提高检索速度及检索更多与输入图像相似的对象图像，索引获得单元240还可基于所有容器中的第二类簇内的第一类簇的中心获得索引。因此，基于所有容器中的对象图像获得的索引包括以下项目中的至少一者：第一类簇的中心、第二类簇的中心、第一类簇内的对象图像的特征或第二类簇内的第一类簇内的对象图像的特征、第一类簇的对象图像或第二类簇内的对象图像。

如上所述，在本发明中，具有同一关注场景的对象图像在同一容器中，对于对应的容器内的对象图像，根据不同关注场景，这些对象图像将被聚类到对应的类簇中。因此，对象图像的特征将不受不同条件的影响，并且每个类簇内用于获得进行对象图像检索的索引的对象图像可比不同条件的对象图像更相似。也就是说，在索引处理期间，将改善获得的用于对象图像检索的索引。因此，根据获得的索引可检索到不同条件的对象图像作为与输入图像相似的图像，这将增加检索召回率。

(检索处理)

接下来，将参照图7至图8描述根据本发明的检索处理(尤其是，针对检测到的对象图像的类簇和对象图像的确定)。

图7是例示根据本发明实施例的对象图像检索装置700的结构的框图。其中，图7中所示的部分或全部模块可由专用硬件实现。图8中所示的流程图800是图7中所示的装置700的对应的过程。

如图7中所示，对象图像检索装置700包括对象图像检测单元710、类簇确定单元720和对象图像确定单元730。其中，类簇确定单元720包括类簇选择单元7201和类簇整合单元7202。并且，对象确定单元730包括对象图像选择单元7301和对象图像整合单元7302。

另外，图7中所示的存储设备740存储根据本发明参照图2至图6获得的索引。在一种实现方式中，存储设备740为图1中所示的ROM 130或硬盘140。另一种选择是，存储设备740为经由网络(未示出)与对象图像检索装置700连接的服务器或外部存储设备。

(第三实施例)

如上所述，根据本发明获得的索引可仅包括一层类簇(即，第一类簇)，并且索引由从类簇确定的中心和对象图像以及对象图像的特征直接形成。也就是说，该索引中的项目对应于第一类簇的中心、从第一类簇中确定的对象图像和对象图像的特征。

在该条件下，图1中所示的输入设备150获取由用户输入的输入图像，然后经由系统总线180将输入图像传输到对象检测单元710。

如图7中所示，对象图像检测单元710从输入图像中检测至少一个对象图像。例如，对象检测单元710通过使用诸如面部检测方法、人体检测方法等现有的对象检测方法从输入图像中检测对象图像。

类簇确定单元720通过系统总线180从存储设备740中获取上述索引，并且基于检测到的对象图像和存储在索引中的类簇的中心从所有容器的所有类簇中确定多个类簇。其中，所述类簇包括多个如上所述的第一类簇。

类簇确定单元720根据检测到的对象图像和索引如下确定所有容器中的多个类簇：首先，对于每个容器中的索引中的每个条目，类簇确定单元720根据检测到的对象与类簇的中心之间的距离计算检测到的对象图像与类簇的中心之间的相似性度量，其中，所述距离例如可为欧氏距离(Euclidean distance)或余弦距离(Cosine distance)。此后，类簇选择单元7201根据相似性度量在多个容器内选择候选类簇。

然后，类簇整合单元7202对来自容器内的候选类簇的多个类簇进行整合。在一种实现方式中，一方面，为了确保容器的多样性，类簇整合单元7202从容器内的候选类簇中选择至少N₁个类簇，其中，N₁通过以下公式定义：

N₁＝K₁*C₁

其中，K₁为每个容器中的候选类簇的最小数量(例如，K₁＝5)。C₁为容器的数量。

另一方面，为了减少检索时间以及提高检索速度，类簇整合单元7202从容器内的候选类簇中选择最多N₂个类簇，其中，N₂通过以下公式定义：

其中，K₂为除了K₁个类簇内的对象图像的特征以外，容器的候选类簇内的对象图像的特征的最大数量(例如，K₂＝5000)。ρ为用于聚类每个容器的一个类簇的特征的平均数量(例如，ρ＝50)。

然后，类簇整合单元7202根据以下规则之一选择N₂个类簇：

(1)通过相似性度量或基线方法对N₂个类簇进行排序；

(2)根据预定义比率将N₂个类簇指定到对应的容器，所述预定义比率可根据容器尺寸(例如，类簇数目)确定。即，将根据每个对应的容器中的候选类簇的数目来分配到每个对应的容器的类簇的比例。换言之，容器内的候选类簇越多，就会有越多的类簇被选择作为N₂个类簇的一部分。例如，有越多人出现在特定关注场景中，则检索到检测到的对象的概率就越高。因此，根据本发明将提高检索准确性并将达到较高的检索准确性。

(3)根据从输入图像中检测到的对象图像在特定关注场景中的出现概率来过滤容器，然后，从过滤后剩余的容器中选择N₂个类簇。例如，在从输入图像中检测到的对象图像是特定时间区间中到达的特定人(即，特定对象)的情况下，例如，早上出现在超市入口的孩子。即，将从有限容器中的候选类簇而非容器内的所有候选类簇中选择N₂个类簇，因此，本发明可基于该整合规则而减少检索时间并提高检索速度。

(4)在每个容器的密度差别很大的情况下，将根据每个对应的容器的密度来分配到每个对应的容器的类簇的比例。例如，特定人在一个关注场景中停留很长时间，则被检测到的可能性会越来越高。因此，根据容器的尺寸选择N₂个类簇，换言之，在一个容器中的对象图像的数量大于其他容器中的对象图像的数量的情况下，则从该一个容器中选择更多类簇。此处，密度等于每个对应的容器中所有对象图像的数目除以类簇数目。

类簇确定单元720可将多个类簇确定为搜索结果或者输出结果。即，确定的类簇为类簇整合单元7202根据上述规则对容器内的候选类簇进行整合之后，N₁个类簇与N₂个类簇的总和。

然后，如图7中所示，从类簇确定单元720在多个类簇内确定的对象图像中，对象图像确定单元730确定针对检测到的对象图像的对象图像。例如，对象图像确定单元730计算检测到的对象图像与对应的容器中的多个类簇内的对象图像之间的相似性度量。如上所述，此处，可使用多种相似性度量来计算相似性度量，包括余弦相似性、欧氏距离、马氏距离(Mahalanobis distance)及关于逻辑回归、支持向量机和测度学习的其他预先训练的机器学习方法。基于检测到的对象图像与对应的容器中的多个类簇内的对象图像之间的相似性度量，对象图像确定单元730确定针对检测到的对象图像的对象图像。

在一种实现方式中，在相似性度量大于或等于预定义阈值的情况下，对象图像选择单元7301选择与检测到的对象图像相似的候选对象图像。

然后，对象图像整合单元7302对来自容器内的候选对象图像的多个对象图像进行整合以获得搜索结果。在一种实现方式中，一方面，为了确保容器的多样性，对象图像整合单元7302从每个对应的容器中确定的类簇内的候选对象图像中选择至少M₁个对象图像。例如，对象图像整合单元7302根据可由相似性度量确定的排序结果选择M₁个对象图像。

另一方面，为了减少检索时间以及提高检索速度，对象图像整合单元7302从对应的容器中确定的类簇内的候选对象图像中选择最多M₂个对象图像。然后，对象图像整合单元7202根据以下规则之一选择M₂个对象图像：

(1)通过相似性度量或基线方法对M₂个对象图像进行排序；

(2)根据预定义比率将M₂个对象图像指定到对应的容器，所述预定义比率可根据容器尺寸(例如，类簇数目)确定。即，将根据每个对应的容器中的候选对象图像的数目来分配到每个对应的容器的对象图像的比例。换言之，容器内的候选对象图像越多，就会有越多针对检测到的对象图像的对象图像被选择作为M₂个对象图像的一部分。例如，有越多人出现在特定关注场景中，则检索到检测到的对象的概率就越高。因此，根据本发明将提高检索准确性并将达到较高的检索准确性。

(3)根据从输入图像中检测到的对象在特定关注场景中的出现概率来过滤容器，然后，在过滤之后从剩余的容器中选择M₂个对象图像。例如，在从输入图像中检测到的对象图像是特定时间区间中到达的特定人(即，特定对象)的情况下，例如，早上出现在超市入口的孩子。即，将从有限容器中的候选类簇而非容器内的所有候选类簇中选择M₂个对象图像，因此，本发明可基于该整合规则而减少检索时间并提高检索速度。

(4)在每个容器的密度差别很大的情况下，将根据每个对应的容器的密度来分配到每个对应的容器的对象图像的比例。例如，特定人在一个关注场景中停留很长时间，则被检测到的可能性会越来越高。

对象图像确定单元730可将多个对象图像确定为搜索结果或者输出结果。即，确定的对象图像为对象图像整合单元7302根据上述规则对对应的容器中确定的类簇内的候选对象图像进行整合之后，M₁个对象图像与M₂个对象图像的总和。

在从输入图像中检测到的对象图像是特定时间区间中到达的特定人(即，特定对象)的情况下，例如，早上出现在超市入口的孩子。对象图像选择单元7301可从存储早上(例如，时间区间为上述的9:00～11:00)的对象图像的对应的容器中，在确定的类簇内选择对象图像。然后，对象图像整合单元7302可对来自对应的容器的对象图像进行整合。即，根据检测到的对象图像的特征，对象图像整合单元7302可将类簇内的更多相关对象图像整合在对应的类簇中，这将增加检索速度和检索召回率。

确定的针对检测到的对象图像的对象图像可为用于下一步的输出或搜索结果，诸如用于通过相似性分数对针对检测到的对象图像的对象图像进行排序并显示排序结果。

(第四实施例)

如上所述，根据本发明获得的索引可包括两层类簇(即，第一类簇和第二类簇)，并且索引由第一类簇和第二类簇的中心、从两层类簇确定的对象图像和对象图像的特征直接形成。也就是说，此索引中的项目对应于从第一类簇和第二类簇确定的中心和对象图像。

在该条件下，类簇确定单元720通过系统总线180从存储设备740中获取上述索引，并且基于检测到的对象图像和存储在索引中的类簇的中心从所有容器的所有类簇中确定多个类簇。其中，所述类簇包括如上所述的第一类簇和第二类簇。因此，为了首先从第二类簇中获得第一类簇，类簇确定单元720首先从所有容器内的索引确定第二类簇。

在一种实现方式中，类簇确定单元720通过依据相似性度量或基线方法对第二类簇进行排序，根据所有容器中的第二类簇的中心确定第二类簇。

在另一种实现方式中，类簇确定单元720通过诸如广度优先搜索算法(breadth-first search algorithm)等现有方法确定第二类簇。对于索引中的每个项目，类簇确定单元720根据所有容器中的第二类簇的中心确定第二类簇。例如，第二类簇(N_s)可由以下公式定义：

其中，k₁为每个容器中所选第二类簇的最小数量(例如，k₁＝5)。n₁为容器的数量(例如，n₁＝5)。k₂为除了k₁个第二类簇内的第一类簇之外，用于聚类所有容器中的第二类簇的第一类簇的最大数量(例如，k₂＝500)。n₂为用于聚类一个第二类簇的第一类簇的平均数量(例如，n₂＝50)。

为了确保容器的多样性，从每个容器中确定至少前k₁个第二类簇。为了限制检索时间，从所有容器中确定最多前个第二类簇。因此，从所有容器中确定第二类簇N_s，但在不同容器中，第二类簇根据关注场景而不同。例如，可根据预定义比率将第二类簇N_s指定到对应的容器。

此后，可根据每个确定的第二类簇的中心，从确定的第二类簇中获得第一类簇。然后，第一类簇确定和对象图像确定均与上述方法相同，此处将不再重复详细的描述。

确定针对检测到的对象图像的对象图像之后，对象图像确定单元730经由系统总线180将针对检测到的对象图像的对象图像输出到图1中所示的输出设备160，例如用于向用户输出针对检测到的对象图像的对象图像，或者用于根据相似性分数对针对检测到的对象图像的对象图像进行排序并显示排序结果。

(第五实施例)

接下来，将参照图8描述由图7中所示的对象图像检索装置700的结构执行的总处理。图8示意性地示出根据本发明实施例的对象图像索引处理的流程图800。

如上所述，图1中所示的输入设备150获取来自用户的输入图像，然后经由系统总线180将所获取的图像(即，输入图像)传输到对象检测单元710。

然后，如图8中所示，在对象图像检测步骤S810中，对象检测单元710从输入图像中检测对象图像。检测方法与上述方法相同，此处将不再重复详细的描述。

在类簇确定步骤中，类簇确定单元720通过系统总线180从存储设备740中获取上述索引，并且基于检测到的对象图像和上述索引确定多个类簇。

在候选类簇选择步骤S820中，类簇选择单元7201根据上述索引和检测到的对象图像，在多个容器内选择候选类簇，此处将不再重复详细的描述。

在类簇整合步骤S830中，类簇整合单元7202对多个容器内的候选类簇进行整合，如上所述获得针对检测到的对象图像的类簇，此处将不再重复详细的描述。

在对象图像确定步骤中，对象图像确定单元730如上所述在对应的容器的类簇内确定对象图像，此处将不再重复详细的描述。

在对象图像选择步骤S840中，对象图像选择单元7301如上所述在对应的容器中的多个类簇内选择候选对象图像。候选对象图像选择方法与上述方法相同，此处将不再重复详细的描述。

然后，在对象图像整合步骤S850中，对象图像整合单元7302根据上述描述对候选对象图像进行整合，以获得针对检测到的对象图像的对象图像，此处将不再重复详细的描述。诸如，从每个容器中选择相同数目的候选对象图像，以将其整合为针对检测到的对象图像的对象图像。

此外，基于相似性度量，从每个容器中选择候选对象图像，然后将其整合为针对检测到的对象图像的对象图像。

此外，针对特定对象，例如在特定时间区间中达到的特定人，在对应的容器中的类簇内选择候选对象图像。然后，对象图像整合单元7302对对应的容器中的候选对象图像进行整合。

即，在对象图像整合步骤S850中，根据检测到的对象图像的特征，对象图像整合单元7302可对更多来自对应的容器中的类簇内的候选对象图像的相关对象图像进行整合，这将增加检索速度和检索召回率。

整合的针对检测到的对象图像的对象图像可为用于下一步的输出。另一种选择是，在排序步骤S860中，排序单元(图中未示出)可通过相似性分数对整合的针对检测到的对象图像的对象图像进行排序并向用户显示排序结果。

(监视系统)

接下来，将参照图9描述示例性监视系统，作为上述索引装置200和上述对象图像检索装置700的示例性应用。图9例示根据本发明实施例的示例性监视系统900的布置。

如图9中所示，根据本发明的监视系统900为在线监视系统并且包括至少一个图像获取装置910(诸如，网络相机)、图像处理装置920、上述索引装置200和上述对象图像检索装置700。在一个实例中，图像获取装置910、图像处理装置920、索引装置200和对象图像检索装置700经由系统总线彼此连接。在另一实例中，图像获取装置910、图像处理装置920、索引装置200和对象图像检索装置700经由网络彼此连接。

对于特殊监视区域，首先，图像获取装置910即时地拍摄/获取图像。

然后，图像处理装置920从所获取的图像中获取对象图像，其中，一个对象图像对应于一个对象。在一种实现方式中，图像处理装置920包括对象检测单元921和对象图像确定单元922。其中，对于一个所获取的图像，对象检测单元921从该所获取的图像中检测至少一个对象。然后，对于一个检测到的对象，对象图像确定单元922从该所获取的图像中确定针对该检测到的对象图像的对应的对象图像。

在图像处理装置920获取对象图像之后，索引装置200根据上述参照图2至图6的描述基于所获取的对象图像获得索引。

然后，在图像被输入到对象图像检索装置700的情况下，对象图像检索装置700从索引装置200中获取上述索引，并且根据上述参照图7和图8的描述对针对输入图像内的对象图像的对象图像进行整合。

最后，对象图像检索装置700输出整合的针对对象图像的对象图像。

上述所有单元都是用于实现本公开中所述的处理的示例性和/或优选模块。这些单元可以是硬件单元(诸如，现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(诸如，计算机可读程序)。以上没有详尽描述用于实现各步骤的单元。然而，当存在执行某一过程的步骤的情况下，可以存在用于实现该同一过程的对应的功能模块或单元(由硬件和/或软件实现)。描述的步骤和对应于这些步骤的单元的所有组合的技术方案包括在本申请的公开内容中，只要它们所构成的技术方案是完整的、适用的即可。

可以以多种方式来实施本发明的方法和装置。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。除非另有具体说明，否则上述方法的步骤顺序仅旨在是说明性的，并且本发明的方法的步骤不局限于上述具体描述的顺序。此外，在一些实施例中，本发明还可以被实施为记录在记录介质中的程序，包括用于实现根据本发明的方法的机器可读指令。因此，本发明也涵盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已经通过示例详细展示了本发明的一些具体实施例，但是本领域的技术人员应该理解，上述示例仅旨在是说明性的，并不限制本发明的范围。本领域的技术人员应该理解，上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求约束。

Claims

1.一种索引装置，所述索引装置包括：

对象图像获得单元，被构造为从视频信息中获得多个对象图像；

分类单元，被构造为根据不同关注场景将所述对象图像分类到多个容器中；

类簇确定单元，被构造为通过基于所述对象图像的特征对分类到每个容器中的对象图像进行聚类而确定多个类簇；及

索引获得单元，被构造为基于每个容器中的所述多个类簇内的所述对象图像获得索引，

其中，针对从输入图像中检测到的对象图像，根据所获得的索引和检测到的对象图像，在所述多个容器内选择候选类簇，对所述候选类簇进行整合，以获得针对检测到的对象图像的类簇。

2.根据权利要求1所述的索引装置，其中所述多个类簇包括第一类簇或第一类簇和第二类簇。

3.根据权利要求1所述的索引装置，其中所述不同关注场景为以下任意项目：

(1)从一个相机确定的关注场景；

(2)从相机的时间可变场景确定的关注场景；

(3)从相机的对象情况可变场景确定的关注场景；

(4)从相机的传感器参数可变场景确定的关注场景；

(5)从相机的设备可变场景确定的关注场景；及

(6)从监视设备可变场景确定的关注场景。

4.根据权利要求2所述的索引装置，其中，所述索引获得单元还被构造为至少存储所述第一类簇的中心或者所述第一类簇的中心和所述第二类簇的中心。

5.一种索引方法，所述索引方法包括：

对象图像获得步骤，用于从视频信息中获得多个对象图像；

分类步骤，用于根据不同关注场景将所述对象图像分类到多个容器中；

类簇确定步骤，用于通过基于所述对象图像的特征对分类到每个容器中的对象图像进行聚类而确定多个类簇；及

索引获得步骤，用于基于所述多个类簇内的所述对象图像获得索引，

6.根据权利要求5所述的方法，其中所述不同关注场景为以下任意项目：

(1)从一个相机确定的关注场景；

(2)从相机的时间可变场景确定的关注场景；

(3)从相机的对象情况可变场景确定的关注场景；

(4)从相机的传感器参数可变场景确定的关注场景；

(5)从相机的设备可变场景确定的关注场景；及

(6)从监视设备可变场景确定的关注场景。

7.一种对象图像检索装置，所述对象图像检索装置包括：

对象检测单元，被构造为从输入图像中检测对象图像；

类簇确定单元，被构造为基于检测到的对象图像和根据权利要求1至4中任一项获得的索引，从对应的容器中确定多个类簇；以及

对象图像确定单元，被构造为在所述多个类簇内确定多个针对所述检测到的对象图像的对象图像；

其中，所述对象图像确定单元包括：

对象图像选择单元，被构造为在所述多个类簇内选择候选对象图像；及

对象图像整合单元，被构造为对所述候选对象图像进行整合，以确定所述多个针对所述检测到的对象图像的对象图像。

8.根据权利要求7所述的对象图像检索装置，其中，所述类簇确定单元包括：

类簇选择单元，被构造为在所有容器中选择候选类簇；及

类簇整合单元，被构造为对所述候选类簇进行整合，以确定多个针对所述检测到的对象图像的对象图像。

9.根据权利要求7所述的对象图像检索装置，其中，所述多个类簇包括第一类簇或第一类簇和第二类簇。

10.根据权利要求7所述的对象图像检索装置，所述对象图像检索装置还包括排序单元，被构造为根据所述检测到的对象图像与针对所述检测到的对象图像的对象图像之间的相似性得分，对所述针对所述检测到的对象图像的对象图像进行排序。

11.根据权利要求7所述的对象图像检索装置，其中，所述对象图像整合单元被构造为根据以下规则中的一者对所述候选对象图像进行整合：

(1)基于所述检测到的对象图像与所述候选对象图像之间的相似性度量；

(2)基于根据容器尺寸确定的预定义比率；

(3)基于根据所述检测到的对象图像在特定关注场景中的出现概率过滤的过滤后容器；

(4)在每个容器的密度差别较大的情况下，基于到每个对应的容器的对象图像的比例。

12.根据权利要求7所述的对象图像检索装置，在所述对象图像为特定对象的情况下，其中，所述对象图像整合单元被构造为根据与所述特定对象相关的关注场景，对所述针对所述检测到的对象图像的对象图像进行整合。

13.根据权利要求8所述的对象图像检索装置，其中，所述类簇整合单元被构造为根据以下规则中的一者对所述候选类簇进行整合：

(1)基于所述检测到的对象图像与所述候选类簇之间的相似性度量；

(2)基于根据容器尺寸确定的预定义比率；

(4)在每个容器的密度差别较大的情况下，基于到每个对应的容器的类簇的比例。

14.根据权利要求9所述的对象图像检索装置，其中，所述对象图像整合单元还被构造为在有一层类簇的情况下，对所述第一类簇内的所述候选对象图像进行整合。

15.根据权利要求9所述的对象图像检索装置，其中，所述对象图像整合单元还被构造为在有两层类簇的情况下，对所述第一类簇和所述第二类簇内的所述候选对象图像进行整合。

16.根据权利要求7所述的对象图像检索装置，其中，所述对象图像选择单元被构造为根据对象图像与所述检测到的对象图像之间的相似性选择所述候选对象图像。

17.根据权利要求7所述的对象图像检索装置，在所述对象图像为特定对象的情况下，其中，所述对象图像选择单元被构造为根据与所述特定对象相关的关注场景，选择所述候选对象图像。

18.根据权利要求8所述的对象图像检索装置，其中，所述类簇选择单元被构造为根据类簇与所述检测到的对象图像之间的相似性选择所述候选类簇。

19.一种对象图像检索方法，所述对象图像检索方法包括：

对象检测步骤，用于从输入图像中检测对象图像；

类簇确定步骤，用于基于检测到的对象图像和根据权利要求1至4中任一项获得的索引，从对应的容器中确定多个类簇；以及

对象图像确定步骤，用于在所述多个类簇内确定多个针对所述检测到的对象图像的对象图像；

其中，所述对象图像确定步骤包括：

对象图像选择步骤，用于在所述多个类簇内选择候选对象图像；及

对象图像整合步骤，用于对选择的候选对象图像进行整合，以确定所述多个针对所述检测到的对象图像的对象图像。

20.根据权利要求19所述的对象图像检索方法，其中，所述类簇确定步骤包括：

类簇选择步骤，用于在所有容器内选择候选类簇；及

类簇整合步骤，用于对所述候选类簇进行整合，以确定所述多个针对所述检测到的对象图像的对象图像。

21.根据权利要求19所述的对象图像检索方法，所述对象图像检索方法还包括排序步骤，用于根据所述检测到的对象图像与针对所述检测到的对象图像的对象图像之间的相似性得分，对所述针对所述检测到的对象图像的对象图像进行排序。

22.根据权利要求19所述的对象图像检索方法，其中，所述对象图像整合步骤包括根据以下规则中的一者对所述候选对象图像进行整合：

(2)基于根据容器尺寸确定的预定义比率；

23.根据权利要求19所述的对象图像检索方法，在所述对象图像为特定对象的情况下，其中，所述对象图像整合步骤包括：根据与所述特定对象相关的关注场景，对所述针对所述检测到的对象图像的对象图像进行整合。

24.根据权利要求20所述的对象图像检索方法，其中，所述类簇整合步骤包括根据以下规则中的一者对所述候选类簇进行整合：

(2)基于根据容器尺寸确定的预定义比率；

25.一种监视系统，所述监视系统包括：

至少一个图像获取装置，被构造为获取图像；

图像处理装置，被构造为从所获取的图像中获取对象图像；

根据权利要求1至4中的任一项的索引装置，被构造为基于所获取的对象图像获得索引；以及

根据权利要求7至18中的任一项的对象图像检索装置，被构造为基于获得的索引对所述针对所述获取的对象图像的对象图像进行整合。