CN108933925B

CN108933925B - 信息处理装置、信息处理方法以及存储介质

Info

Publication number: CN108933925B
Application number: CN201810497006.2A
Authority: CN
Inventors: 松下昌弘; 椎山弘隆
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-05-23
Filing date: 2018-05-22
Publication date: 2021-03-23
Anticipated expiration: 2038-05-22
Also published as: KR20210090139A; JP2018198056A; JP7130425B2; JP2022093550A; EP3418944A2; US20180341803A1; JP7375101B2; EP3418944A3; KR102415632B1; US10755080B2; CN108933925A; EP3418944B1; KR20180128350A

Abstract

本发明提供一种信息处理装置、信息处理方法以及存储介质。所述信息处理装置包括第一获取单元和第二获取单元以及第一搜索单元和第二搜索单元。所述第一获取单元从包括搜索对象的搜索源图像获取第一特征量。所述第一搜索单元基于由所述第一获取单元获取的第一特征量，从多个视频图像中搜索所述搜索对象。所述第二获取单元从由所述第一搜索单元搜索到的搜索对象获取第二特征量。所述第二特征量不同于所述第一特征量。所述第二搜索单元基于由所述第二获取单元获取的第二特征量，从所述多个视频图像当中的、至少所述第一搜索单元未搜索到搜索对象的视频图像中搜索所述搜索对象。

Description

信息处理装置、信息处理方法以及存储介质

技术领域

本公开涉及一种适于在精确地搜索对象时使用的信息处理装置、信息处理方法以及存储介质。

背景技术

目前，已知一种被构造为从要监视的视频图像的各个帧中检测人物的面部、由检测到的面部计算图像特征量、并且将计算出的图像特征量与视频图像的帧相关联地进行累积的装置，如在日本特开2013-153304号公报中所讨论的。该装置能够将所累积的图像特征量与要作为查询而搜索的人物的面部进行比较，并且显示包括人物的视频图像。日本特开2009-199322号公报讨论了，还已知一种具有如下构造的装置，在该构造中，不仅存储人物的面部的图像特征量，还存储服装信息(诸如穿戴在人物身上的服装的颜色和形状等)，并且使用这些信息用于搜索，从而实现精确的人物搜索。

M.Farenzena,L.Bazzani,A.Perina,V.Murino and M.Cristani:"Person Re-Identification by Symmetry-Driven Accumulation of Local Features",Proc.ofCVPR,pp.2360-2367(2010)(在下文中被称为Farenzena等人)讨论了一种如下的技术，在该技术中，从由多个照相机拍摄的视频图像中的人物的区域中获取特征量(诸如服装的颜色和形状等)，并且将所获取的特征量彼此进行比较以识别由照相机拍摄的视频图像中的人物是否是同一人物。使用M.Farenzena等人讨论的技术使得能够跟踪由多个照相机拍摄的图像中的可疑人员等。

在日本特开2013-153304号公报和2009-199322号公报中讨论的技术中，基于面部图像进行人物搜索。然而，很多监视照相机被安装在高处，诸如被安装在天花板上，并且因此由照相机拍摄的一些图像(诸如俯视图的图像和各个人物的大小较小的图像)的清晰度不足以辨识图像中的各个人物的面部。由于这个原因，这些技术难以搜索由这样的照相机拍摄的视频图像中包括的人物。另一方面，M.Farenzena等人描述的方法能够使用从整个人物(包括穿戴在人物身上的服装的颜色和形状等)获得的信息来跟踪人物。然而，通过仅使用该方法，难以鉴别穿着与该人周围的其他人穿着的服装相似的如制服、工作服或西装这样的服装的人。

发明内容

鉴于上述问题，本公开针对一种能够通过有效地组合对象的特征来精确搜索关注对象的技术。

根据本发明的一方面，一种信息处理装置包括：第一获取单元，其被构造为从包括搜索对象的搜索源图像获取第一特征量；第一搜索单元，其被构造为基于由所述第一获取单元获取的第一特征量，从多个视频图像中搜索所述搜索对象；第二获取单元，其被构造为从由所述第一搜索单元搜索到的搜索对象获取第二特征量，其中所述第二特征量不同于所述第一特征量，以及第二搜索单元，其被构造为基于由所述第二获取单元获取的第二特征量，从所述多个视频图像当中的、至少所述第一搜索单元未搜索到搜索对象的视频图像中搜索所述搜索对象。

通过以下参照附图对示例性实施例的描述，本发明的其他特征将变得清楚。

附图说明

图1是例示根据本公开的实施例的信息处理装置的硬件构造示例的框图。

图2是例示根据第一实施例的信息处理装置的功能构造示例的框图。

图3是例示根据第一实施例的累积面部图像特征和人体图像特征的处理过程的示例的流程图。

图4是例示根据第一实施例的搜索人物的面部图像和人体图像的处理过程的示例的流程图。

图5是例示搜索人物的面部图像和人体图像的概要的说明图。

图6是例示根据第二实施例的信息处理装置的功能构造示例的框图。

图7是例示根据第二实施例的搜索人物的面部图像和人体图像的处理过程的示例的流程图。

图8是例示根据第三实施例的信息处理装置的功能构造示例的框图。

图9是例示根据第三实施例的搜索人物的面部图像和人体图像的处理过程的示例的流程图。

图10是例示根据第四实施例的信息处理装置的功能构造示例的框图。

图11是例示根据第四实施例的累积面部图像特征、人体图像特征和属性的处理过程的示例的流程图。

图12是包括图12A和图12B的流程图的图，图12A和图12B例示根据第四实施例的搜索人物的属性、面部图像和人体图像的处理过程的示例。

图13是例示根据第五实施例的信息处理装置的功能构造示例的框图。

图14是例示根据第五实施例的累积面部图像特征和人体图像特征的处理过程的示例的流程图。

图15A至图15E是各自例示搜索结果的显示示例的图。

具体实施方式

在本公开的第一实施例中，从通过对由监视照相机拍摄的视频图像中包括的人物进行跟踪而获得的人物的一系列图像中提取面部图像特征和人体图像特征，并且将面部图像特征和人体图像特征相关联并存储。基于作为查询(搜索源)而给出的面部图像(搜索源图像)来进行面部图像搜索。之后，使用与如下的面部图像相关联地登记的人体图像特征进行人体图像搜索，所述面部图像与面部图像搜索结果的相似度等于或高于预先设置的阈值。此外，使用具有高可鉴别性的面部图像特征来验证人体图像搜索的结果。

图1是例示根据本实施例的信息处理装置100的硬件构造示例的框图，信息处理装置100包括服务器装置或客户端装置。服务器装置或客户端装置可以通过单个信息处理装置来实现，或者可以通过根据需要将服务器装置或客户端装置的功能分布到多个装置来实现。当服务器装置或客户端装置包括多个装置时，这些装置经由局域网(LAN)等连接，使得这些装置可以彼此通信。信息处理装置可以通过诸如个人计算机(PC)或工作站(WS)等的装置来实现。

参照图1，中央处理单元(CPU)101控制整个信息处理装置100。只读存储器(ROM)102是存储不需要改变的程序和参数的存储器。随机存取存储器(RAM)103是临时存储从外部装置等供给的程序和数据的存储器。外部存储设备104是固定并安装在信息处理装置100中的诸如硬盘或存储卡等的存储设备。外部存储设备104可以是光盘，例如软盘(FD)或压缩盘(CD)、磁卡或光卡、集成电路(IC)卡、存储卡等。以CPU 101执行存储在ROM 102或外部存储设备104中的程序的方式来执行下面描述的各个操作。

输入设备接口105是用于连接输入设备109(诸如指点设备或键盘)以接收用户操作并输入数据的接口。输出设备接口106是用于连接用于显示由信息处理装置100保持的数据或所供给的数据的监视器110的接口。通信接口107是用于连接到诸如互联网等的网络线路111的通信接口。各个网络照相机112是诸如监视照相机等的视频图像拾取设备，并且经由网络线路111连接到信息处理装置100。系统总线108是将上述的单元连接以使得这些单元可以彼此通信的传输路径。

图2是例示根据本实施例的信息处理装置100的功能构造示例的框图。

视频图像输入单元201经由通信接口107从网络照相机112接收视频图像数据(连续图像)。

视频图像累积单元202将输入到视频图像输入单元201的视频图像数据存储在外部存储设备104中。在这种情况下，包括视频图像获取条件(例如作为视频图像获取时间的摄像时间以及作为视频图像获取位置的摄像照相机)的信息与视频图像数据相关联地被存储为视频图像的元数据。

跟踪处理单元203对从视频图像输入单元201输入的视频图像中的人物进行跟踪。可以使用例如在日本特开2002-373332号公报中讨论的公知技术来进行人物跟踪处理。在日本特开2002-373332号公报中讨论的方法中，基于运动矢量来检测对象，并且对随后帧中的搜索位置进行估计以通过模板匹配来跟踪人物。在跟踪处理单元203中，向用于跟踪同一人物的跟踪轨迹发布相同的跟踪轨迹ID，并且向用于跟踪不同人物的跟踪轨迹发布不同的跟踪轨迹ID，由此确保唯一性并且可以基于跟踪轨迹ID来识别同一人物。在人物的跟踪被中断的情况下，发布另一个跟踪轨迹ID。

面部检测单元204从由跟踪处理单元203跟踪的人物的各个帧图像中检测面部。面部检测单元204基于包括由视频图像输入单元201和下述的查询输入单元212输入的面部图像的视频图像，进行面部检测。作为用于从图像中检测人物的面部的方法，例如可以使用在日本特开2010-165156号公报中讨论的公知技术。具体而言，从要处理的图像中检测单眼候选区域，并且从多个单眼候选区域当中对候选区域进行配对，以基于配对的眼睛的位置来确定面部区域。

代表性面部图像确定单元205从被跟踪的人物的帧图像组中选择代表性面部图像。在选择代表性面部图像的处理中，例如，选择包括由面部检测单元204检测到的较大面部的图像。使用包括较大面部的图像的原因是可以从较大面部图像获得更精确的图像特征。换句话说，在基于面部图像计算图像特征的情况下，需要进行用于将面部图像的大小缩放到特定大小的面部大小归一化处理。在该处理中，当面部图像大于特定大小时，进行缩小处理。在这种情况下，信息损失相对小。当面部图像小于特定大小时，需要诸如超分辨率处理等的像素内插处理，这导致信息的显著劣化。

作为代表性面部图像，能够从帧图像组中选择多个图像。例如，存在用于选择表示不同面部方向的图像的方法。如果人的面部的方向变化，则从图像获得的图像特征变化。作为用于从图像中检测人物的面部方向的方法，例如，可以使用Erik Muphy-Chutorian,"Head pose estimation fordriver assistance systems:A robust algorithm andexperimental evaluation,"inProc.IEEE Conf.Intelligent Transportation Systems,2007,pp.709-714.(在下文中被称为Erik Muphy-Chutorian)的公知技术。在ErikMuphy-Chutorian中讨论的技术中，提取方位梯度直方图(HOG)作为特征量来通过SVR估计面部方向。方位梯度直方图是这样的特征量，将关于图像的亮度梯度信息转换成针对图像的各个局部区域的直方图，并且也被称为对局部噪声或图像对比度稳健的特征量。选择对与面部方向不相关的变化(诸如噪声或照明变化)稳健的特征量，从而在实际环境中实现对面部方向的稳定估计。

此外，可以选择具有较少模糊的图像作为代表性面部图像。如同在用于拍摄静止图像的照相机中一样，用于拍摄运动图像的照相机的快门速度可以依据该位置处的明度而变化。因此，由于黑暗的场所或被摄体的运动速度，有时会出现面部图像的模糊。这是图像特征量或属性信息劣化的直接原因。对于模糊的估计，获得面部图像区域的频率分量，并且获得低频分量与高频分量之间的比率。当低频分量的比率超过预定值时，可以确定发生模糊。另外，可以以闭眼的面部、张嘴的面部等的形式，来选择代表性面部图像。如果存在闭眼的面部、张嘴的面部等，则面部特征点的图像特征会改变。出于这个原因，不选择这样的图像作为代表性面部图像。通过示例的方式说明了如上所述的用于选择代表性面部图像的方法，并且本公开不限于这些方法。

面部图像特征计算单元206计算面部图像特征。在本实施例中，获取人物的面部图像中的面部特征点(诸如眼和嘴等)，并且使用各个面部特征点的比例不变特征变换(scaleinvariant feature transform，SIFT)特征。该特征仅仅是示例，并且本公开不限于该示例。可以将整个面部划分成块，并且可以针对各个块计算局部二值模式(LBP)特征并使用，或者可以进行深度学习来计算特征。

面部图像特征累积单元207将通过跟踪处理单元203、面部检测单元204、代表性面部图像确定单元205和面部图像特征计算单元206根据输入到视频图像输入单元201的视频图像而计算出的面部图像特征存储在外部存储设备104中。另外，作为面部图像特征的元数据，将诸如人物ID、跟踪人物时使用的跟踪轨迹ID、摄像时间和摄像照相机等的信息与面部图像特征相关联地存储。

人体区域检测单元208从由跟踪处理单元203跟踪的人物的各个帧图像中检测人体区域。作为用于从图像中检测人体的方法，例如，可以使用在美国专利公开申请2007/0237387号的说明书中讨论的公知技术。在该方法中，使具有预定大小的检测窗口对输入的视频图像进行扫描，并且鉴别通过将检测窗口中的图像切出而获得的图案图像是否代表人体。通过由AdaBoost将大量弱鉴别器有效地组合来构造鉴别器以改善鉴别精度。鉴别器被串联连接以形成级联检测器。各个弱鉴别器鉴别方位梯度直方图(HOG)特征量作为输入。级联检测器首先使用设置在前一级的简单鉴别器来当场消除与被摄体明显不同的图案候选。仅针对其他候选，使用设置在后一级且具有高鉴别能力的复杂鉴别器来鉴别图像是否代表人体。

人体图像特征计算单元209计算人体图像特征。在本实施例中，将人体区域划分成块，并且针对各个块计算局部二值模式(LBP)特征。该特征仅仅是示例，并且本公开不限于该示例。可以将人体划分成诸如头部、上肢和下肢等区域，并且可以针对各个区域计算LBP特征。作为选择，可以进行深度学习来计算特征。

人体图像特征累积单元210将经由跟踪处理单元203、人体区域检测单元208和人体图像特征计算单元209根据由视频图像输入单元201输入的视频图像而计算出的人体图像特征存储在外部存储设备104中。另外，作为人体图像特征的元数据，将诸如人物ID、跟踪人物时使用的跟踪轨迹ID、摄像时间和摄像照相机等的信息与人体图像特征相关联地存储。

当可以根据同一人物计算出面部图像特征和人体图像特征时，关联信息累积单元211将关于这些特征的关联信息存储在外部存储设备104中。在本实施例中，假设在当由跟踪处理单元203跟踪人物时获得的多个帧图像中检测到的人物是同一人物，则存储关于由该多个帧图像获得的多个面部图像和人体图像的关联信息。因此，面部图像和人体图像以一对一对应、多对一对应、一对多对应或多对多对应的方式相关联。

查询输入单元212指定(输入)用于搜索的人的面部图像。具体而言，将存储在外部存储设备104中的面部图像显示在监视器110上并且通过输入设备109由用户操作来指定。根据本公开的用于指定搜索用的人的面部图像的方法不限于这些示例。在这种情况下，可以使用一个或更多个人面部图像用于搜索。

面部图像搜索单元213将通过面部检测单元204和面部图像特征计算单元206根据查询图像而计算出的面部图像特征指定为查询，并且通过使用由面部图像特征累积单元207存储在外部存储设备104中的面部图像特征来搜索面部图像。与面部图像特征的相似度等于或高于预定阈值TH1的面部图像被识别为搜索结果。在计算相似度的情况下，获得各个面部特征点处的SIFT特征的距离的总和，并且将距离的总和的倒数归一化以获得相似度。

搜索结果分选单元214从面部图像搜索单元213的搜索结果中识别与面部图像特征的相似度等于或高于预定阈值TH2的面部图像。如果代表不同人物的面部图像被混合，则可以在后续处理中搜索与要搜索的人不同的人。因此，将等于或大于阈值TH1的值预先设置为阈值TH2，使得可以仅分选出代表与查询图像的面部图像所代表的人物相同的人物的面部图像。此外，根据需要，对要分选的面部图像的数量设置上限。

查询分选单元215基于由关联信息累积单元211累积在外部存储设备104中的关联信息，确定是否存在与由搜索结果分选单元214分选出的面部图像的面部图像特征相关联的人体图像特征。在相关联的人体图像特征被存储在外部存储设备104中的情况下，从外部存储设备104获取人体图像特征。可以由搜索结果分选单元214分选出多个面部图像并且可以将多个人体图像特征与单个面部图像特征相关联。结果，可以获取大量的人体图像特征。因此，在这种情况下，从人体图像特征中分选出一个或更多个代表性人体图像特征。在分选出人体图像特征的情况下，对人物图像特征进行聚类，并且从各个聚类中仅分选出接近各个聚类的重心的人物图像特征。

人体图像搜索单元216将由查询分选单元215分选出的人体图像特征指定为查询，并且通过使用由人体图像特征累积单元210存储在外部存储设备104中的人体图像特征来搜索人体图像。与人体图像特征的相似度高于预定阈值的人体图像被识别为搜索结果。在计算相似度的情况下，将LBP特征的距离的倒数归一化以获得相似度。

验证单元217基于由关联信息累积单元211累积在外部存储设备104中的关联信息，来确定是否存在与作为人体图像搜索单元216的搜索结果而获得的图像相关联的面部图像特征。如果相关联的面部图像特征被存储在外部存储设备104中，则从外部存储设备104获取面部图像特征。此外，将所获取的面部图像特征与根据查询图像的面部图像而计算出的面部图像特征进行比较，以获得相似度。当相似度低于预定阈值TH3时，从搜索结果中删除包括与面部图像特征相关联的人体图像特征的人体图像。人体图像特征的比较的鉴别能力低于面部图像特征的比较的鉴别能力。因此，通过对面部图像特征进行比较来验证人体图像的搜索结果。作为这里使用的阈值TH3，设置等于或小于由搜索结果分选单元214使用的阈值TH2并且大于减少同一人物的检测遗漏的值的值。虽然在本实施例中，从搜索结果中删除人体图像使得验证结果被反映在搜索结果中，但是可以进行校正处理以降低人体图像的搜索结果的相似度。可以通过例如将用于使用面部图像特征的验证的相似度与用于人体图像搜索的相似度相乘来校正人体图像搜索的相似度。

整合单元218将由面部图像搜索单元213搜索的面部图像的搜索结果与由验证单元217校正的人体图像的搜索结果整合，从而更新面部图像的搜索结果。

使用作为面部图像搜索和人体图像搜索中的各个的结果而获得的相似度来创建面部图像特征的相似度与人体图像特征的相似度之间的散布图(scatter diagram)，并且生成这些值之间的近似直线。使用所生成的近似直线作为针对不存在面部图像的搜索结果的结果的变换，并且由人体图像特征的相似度以伪方式(in a pseudo manner)计算面部图像特征的相似度。分选这些相似度并且整合搜索结果。通过示例的方式来说明本实施例，并且可以仅使用两种搜索的搜索结果中的一些来获得近似直线。对于未作为两种搜索的搜索结果而获得的但是包括两种特征量的图像，可以通过将未搜索的特征与对应的查询特征进行比较来计算相似度。可以使用由此获得的相似度来获得近似直线。代替近似直线，可以使用高阶近似曲线、指数函数近似曲线等作为近似式(approximation)。在本实施例中，针对不存在面部图像特征的相似度的结果，以伪方式计算面部图像特征的相似度。这是因为面部图像特征的比较的可鉴别性高于人体图像特征的比较的可鉴别性。因此，优先使用面部图像特征的相似度。然而，本公开不限于该方法。可以获得两种相似度，并且可以通过例如相似度的加权平均来计算整合的相似度。

搜索结果显示单元219在监视器110上显示由整合单元218整合的搜索结果。例如，如图15A中所示，搜索结果按各个照相机分类，并且按摄像时间的顺序显示在监视器110上。作为选择，如图15B中所示，可以在地图上显示照相机的安装位置，并且可以基于摄像时间在监视器110上显示移动历史。此外，搜索结果可以被显示为得分。例如，如图15C中所示，面部图像搜索和人体图像搜索的结果被整合并且在同一画面内以可区分的方式被显示。可以在分开的画面上显示这些结果。参照图15D，仅显示面部图像搜索的结果。参照图15E，仅显示人体图像搜索的结果。可以对这些结果显示进行切换。根据本公开的用于显示比较结果的方法不限于这些示例。此外，可以通过例如改变矩形框的颜色来设置不同的显示格式，使得可以将使用第一特征量(面部图像特征)的搜索的结果与使用第二特征量(人体图像特征)的搜索的结果进行区分。

接下来，将参照图3详细描述用于以视频数据可以被搜索的方式来累积从视频图像输入单元201输入的视频图像数据的处理。

图3是例示根据本实施例的累积面部图像特征和人体图像特征的处理过程的示例的流程图。该处理对应于由从上述的视频图像输入单元201至关联信息累积单元211这些单元进行的处理，因此省略对处理的详细描述。

在步骤S301中，视频图像输入单元201通过通信接口107从网络照相机112接收视频图像数据。

在步骤S302中，视频图像累积单元202将在步骤S301中接收的视频图像数据存储在外部存储设备104中。另外，存储诸如摄像时间和拍摄视频图像的照相机等的信息作为视频图像的元数据。

步骤S303和S304是由跟踪处理单元203进行的处理。首先，在步骤S303中，跟踪处理单元203从各个帧图像中检测人物，并且跟踪检测到的人物。在这种情况下，将人物ID分配给检测到的人物的各帧图像，并且将人物ID与各个帧图像中的人物的坐标一起临时存储。将相同的跟踪轨迹ID分配给正被跟踪的人物，并且将跟踪轨迹ID与正被跟踪的帧图像的ID一起临时存储。

在步骤S304中，跟踪处理单元203确定是否存在跟踪被中断的人物。作为确定的结果，在存在跟踪被中断的人物的情况下(在步骤S304中为“是”)，确定人物的跟踪图像组，因此处理进行到随后的步骤S305。在不存在跟踪被中断的人物的情况下(在步骤S304中为“否”)，处理返回到步骤S301以继续跟踪。

在步骤S305中，面部检测单元204从包括由跟踪处理单元203跟踪的人物的各个帧图像中检测面部。

在步骤S306中，面部检测单元204确定是否存在任何在步骤S305的处理中检测到的面部。作为确定的结果，在存在检测到的面部的情况下(在步骤S306中为“是”)，处理进行到步骤S307，并且在没有检测到面部的情况下(在步骤S306中为“否”)，处理进行到步骤S310。

在步骤S307中，代表性面部图像确定单元205从被跟踪的人物的帧图像组中选择一个或更多个面部图像作为检测到的面部的代表性图像。

在步骤S308中，面部图像特征计算单元206根据在步骤S307中选择的一个或更多个代表性面部图像来计算面部图像特征。

在步骤S309中，面部图像特征累积单元207将在步骤S308中计算出的面部图像特征存储在外部存储设备104中。另外，作为面部图像特征的元数据，将诸如人物ID、跟踪人物时使用的跟踪轨迹ID、摄像时间和摄像照相机等的信息与面部图像特征相关联地存储。

在步骤S310中，人体区域检测单元208从由跟踪处理单元203跟踪的人物的各个帧图像中检测人体区域。

在步骤S311中，人体区域检测单元208确定是否存在任何在步骤S310的处理中检测到的人体。作为确定的结果，在存在检测到的人体的情况下(在步骤S311中为“是”)，处理进行到步骤S312，并且在没有检测到人体的情况下(在步骤S311中为“否”)，处理进行到步骤S314。

在步骤S312中，人体图像特征计算单元209根据检测到人体的帧图像来计算人体图像特征。

在步骤S313中，人体图像特征累积单元210将在步骤S312中计算出的人体图像特征存储在外部存储设备104中。另外，作为人体图像特征的元数据，将诸如人物ID、跟踪人物时使用的跟踪轨迹ID、摄像时间和摄像照相机等的信息与人体图像特征相关联地存储。

在步骤S314中，关联信息累积单元211确定是否存在与在步骤S305中检测到的面部和在步骤S310中检测到的人体二者匹配的人物。例如，通过参照面部图像特征和人体图像特征的元数据来确定是否存在与跟踪轨迹ID匹配的人物。作为确定的结果，在存在针对同一人物的面部和人体的组合的情况下(在步骤S314中为“是”)，处理进行到步骤S315。在不存在针对同一人物的面部和人体的组合的情况下，处理终止。在步骤S315中，关联信息累积单元211将与根据同一人物计算出的面部图像特征和人体图像特征相关联的关联信息存储在外部存储设备104中，然后终止处理。

通过上述的处理，从网络照相机112输入的视频图像中包括的人物的面部图像的面部图像特征，被面部图像特征累积单元207累积在外部存储设备104中，并且因此搜索就绪。人物的人体图像的人体图像特征也被人体图像特征累积单元210累积在外部存储设备104中，并且因此搜索就绪。

接下来，将参照图4详细描述根据查询输入单元212输入的查询图像来搜索人物的面部图像和人体图像的处理。

图4是例示根据本实施例的搜索人物的面部图像和人体图像的处理过程的示例的流程图。该处理对应于由上述的图2中所示的面部检测单元204、面部图像特征计算单元206以及查询输入单元212至搜索结果显示单元219进行的处理，因此省略对处理的详细描述。

首先，将参照图5描述处理流程的概念。在图5中所示的示例中，在五个照相机当中的照相机1至照相机4上显示，被指定为查询的人物。首先，基于作为查询而给出的面部图像500来进行面部图像搜索。结果，分别从清晰地显示面部的照相机1和照相机4获得搜索结果501和搜索结果504。接下来，使用搜索结果501和504作为查询来进行人体图像搜索。结果，分别从照相机2、照相机3和照相机5获得搜索结果502、搜索结果503和搜索结果505。在这种情况下，照相机5的搜索结果505示出了面部的清晰图像。因此，将查询面部图像与搜索结果505的面部图像进行比较。在这种情况下，很显然，查询面部图像与搜索结果505之间的相似度低，并且因此从搜索结果中删除搜索结果505。最后，获得照相机1至照相机4的搜索结果501至搜索结果504的图像作为正确的搜索结果。

在步骤S401中，查询输入单元212接收用于搜索的人的面部图像。

在步骤S402中，面部检测单元204从包括由查询输入单元212接收的面部图像的视频图像中检测面部。

在步骤S403中，面部图像特征计算单元206根据在步骤S402中检测到的面部图像来计算面部图像特征。

在步骤S404中，面部图像搜索单元213将在步骤S403中计算出的面部图像特征指定为查询，并且使用由面部图像特征累积单元207存储在外部存储设备104中的面部图像特征来搜索面部图像。然后，与面部图像特征的相似度等于或高于预定阈值TH1的面部图像被识别为搜索结果。

在步骤S405中，搜索结果分选单元214从在步骤S404中识别的搜索结果中识别与面部图像特征的相似度等于或高于预定阈值TH2的面部图像。

步骤S406至步骤S411是由查询分选单元215进行的处理，并且该处理被循环地执行与在步骤S405中分选出的面部图像的数量相等的次数。

在步骤S407中，查询分选单元215基于累积在外部存储设备104中的关联信息，来确定与要处理的面部图像的面部图像特征相关联的人体图像特征是否被存储在外部存储设备104中。作为确定的结果，在外部存储设备104中没有存储相关联的人体图像特征的情况下(在步骤S407中为“0”)，处理返回到步骤S406以对随后的面部图像进行处理。在1个相关联的人体图像特征被存储在外部存储设备104中的情况下(在步骤S407中为“1”)，处理进行到步骤S408。在多个相关联的人体图像特征被存储在外部存储设备104中的情况下(在步骤S407中为“多”)，处理进行到步骤S409。

在步骤S408中，查询分选单元215从外部存储设备104获取人体图像特征。

另一方面，在步骤S409中，查询分选单元215从外部存储设备104获取多个人体图像特征。

在步骤S410中，查询分选单元215进行对多个人物图像特征的聚类，并且仅分选出接近各个聚类的重心的人物图像特征。该处理可以对所有照相机进行，或者可以在将照相机分组之后对各组的照相机进行。可以针对整个时间段分选出人物图像特征，或者可以针对各个划分的时间段分选出人物图像特征。在将照相机分组或者将时间段划分之后分选出人物图像特征，由此可以在下述的步骤S412中在人体图像搜索期间关注于搜索对象有效地进行搜索。

在步骤S411中，查询分选单元215将在步骤S408中获取的人物图像特征或在步骤S410中分选出的人物图像特征设置为用于人体图像搜索的查询。

在步骤S412中，人体图像搜索单元216将在步骤S411中设置的人体图像特征指定为查询，并且通过使用由人体图像特征累积单元210存储在外部存储设备104中的人体图像特征来搜索人体图像。与人体图像特征的相似度等于或高于预定阈值的人体图像被识别为搜索结果。

在这种情况下，可以通过限制各个照相机的安装位置或摄像时间来进行人体图像搜索。具体而言，可以通过添加这样的限制来进行搜索：如果可以确认要搜索的人物被显示在特定照相机上，则在紧密时间段(close time period)内在安装在远离该照相机的位置处的照相机上将不显示该人物。在这种情况下，可以由在步骤S405中分选出的面部图像的搜索结果获得关于各个照相机的位置以及时间的信息，并且因此可以添加对搜索范围的限制。此外，在步骤S410中，当通过将照相机分组来分选出人物图像特征，针对各个照相机来分选出人物图像特征，或者针对各个划分的时间段来分选出人物图像特征时，可以使用在紧密时间段内在靠近用于搜索的照相机的位置处获得的图像作为查询来进行搜索，由此可以进行更有效的搜索。

步骤S413至S417是由验证单元217进行的处理，并且该处理被循环地执行以与在步骤S412中搜索到的人体图像的数量相等的次数。

在步骤S414中，验证单元217基于累积在外部存储设备104中的关联信息，来确定与要处理的人体图像的人体图像特征相关联的面部图像特征是否被存储在外部存储设备104中。作为确定的结果，在外部存储设备104中没有存储相关联的面部图像特征的情况下(在步骤S414中为“否”)，处理返回到步骤S413以对随后的人体图像进行处理。在相关联的面部图像特征被存储在外部存储设备104中的情况下(在步骤S414中为“是”)，处理进行到步骤S415。

在步骤S415中，验证单元217从外部存储设备104获取面部图像特征，并且将所获取的面部图像特征与在步骤S403中计算出的查询的面部图像特征进行比较，以获得相似度。在步骤S416中，验证单元217确定在步骤S415中计算出的相似度是否低于预定阈值TH3。作为确定的结果，在相似度等于或高于预定阈值TH3的情况下(在步骤S416中为“否”)，处理返回到步骤S413以对随后的人体图像进行处理。在相似度低于预定阈值TH3的情况下(在步骤S416中为“是”)，处理进入步骤S417。

在步骤S417中，验证单元217从人体图像的搜索结果中删除要处理的人体图像。

在步骤S418中，整合单元218将在步骤S404中获得的面部图像的搜索结果与在步骤S413至S417中校正的人体图像的搜索结果整合。

在步骤S419中，搜索结果显示单元219在监视器110上显示在步骤S418中整合的搜索结果。当从同一照相机获得多个结果时，代替显示所有获得的结果，可以仅显示示出最高面部图像相似度的结果。

如上所述，根据本实施例，从通过在监视照相机拍摄的视频图像中跟踪人物而获得的同一人物的一系列图像中提取面部图像特征和人体图像特征，并且将这些特征相关联并存储。基于作为查询而给出的面部图像进行面部图像搜索。之后，使用与如下的面部图像特征相关联地登记的人体图像特征来进行人体图像搜索，所述面部图像特征与查询面部图像的相似度等于或高于预定阈值。这种构造使得对人的搜索可以不仅从包括人的面部的监视视频图像中搜索，还从未清楚地显示人的面部的监视视频图像中搜索。此外，由于使用具有高可鉴别性的面部图像特征来验证人体图像的搜索结果，因此可以减少搜索中的错误检测。

在第一实施例中，使用与如下的面部图像特征相关联地登记的人体图像特征来进行人体图像搜索，所述面部图像特征与查询面部图像的相似度等于或高于预定阈值。此外，通过使用面部图像特征基于预定阈值来验证人体图像搜索结果。在第二实施例中，由用户从面部图像的搜索结果中选择一个或更多个面部图像，并且使用与面部图像特征相关联地登记的人体图像特征来进行人体图像搜索。基于由用户选择的面部图像的搜索结果的相似度来验证人体图像搜索结果。

根据第二实施例的信息处理装置的硬件构造与图1中所示的类似，因此省略其描述。将参照图6描述根据本实施例的信息处理装置的功能构造。下面将仅描述本实施例与第一实施例之间的不同之处。

图6是例示根据第二实施例的信息处理装置600的功能构造示例的框图。视频图像输入单元201至面部图像搜索单元213、查询分选单元215、人体图像搜索单元216和整合单元218与图2中所示的类似，因此省略其描述。

搜索结果显示单元219显示由整合单元218整合的搜索结果，并且还显示由面部图像搜索单元213进行的搜索的结果。

搜索结果选择单元614用于用户从与搜索结果显示单元219上显示的面部图像特征的搜索结果相关联的面部图像组中选择一个或更多个面部图像。

如同在第一实施例中，验证单元217将预定阈值TH3与如下相似度进行比较，该相似度是通过将查询图像的面部图像特征与作为人体图像特征搜索结果获得的人体图像特征相关联地登记的面部图像特征进行比较而获得的。作为这里使用的阈值TH3，可以如同在第一实施例中使用预先设置的值，但是替代地，可以基于由搜索结果选择单元614选择的面部图像的面部图像特征与查询面部图像的面部图像特征之间的相似度来动态地确定阈值TH3。例如，在本实施例中，将查询面部图像的面部图像特征与由搜索结果选择单元614选择的多个面部图像的面部图像特征之间的相似度当中的最小相似度设置为阈值TH3。作为选择，可以使用比最小相似度小一定量或一定比例的值作为阈值TH3。

接下来，将详细描述根据本实施例的信息处理装置600的处理过程。在外部存储设备104中累积面部图像特征和人体图像特征的处理过程与图3中所示的相似。下面将参照图6描述搜索人物的面部图像和人体图像的处理过程。该处理对应于由上述的图6中所示的面部检测单元204、面部图像特征计算单元206、查询输入单元212至搜索结果显示单元219以及搜索结果选择单元614进行的处理，并且省略对处理的详细描述。

图7是例示根据本实施例的搜索人物的面部图像和人体图像的处理过程的示例的流程图。

图7中所示的步骤S401至S404分别类似于图4中所示的步骤S401至S404。

在步骤S701中，搜索结果显示单元219在监视器110上显示在步骤S404中获得的面部图像的搜索结果。

在步骤S702中，搜索结果选择单元514从监视器110上显示的面部图像搜索结果中选择一个或更多个面部图像。在该处理中，用户从输入设备109选择面部图像，并且搜索结果选择单元514通过输入设备接口105基于用户指令选择面部图像。

在步骤S703中，验证单元217将查询面部图像的面部图像特征与由搜索结果选择单元514选择的多个面部图像的面部图像特征之间的相似度当中的最小相似度设置为阈值TH3。

步骤S406至S419分别类似于图4中所示的步骤S406至S419。

如上所述，根据本实施例，用户从面部图像搜索结果中选择一个或更多个面部图像，以使用与面部图像特征相关联地登记的人体图像特征来进行人体图像搜索。此外，基于由用户选择的面部图像的搜索结果的相似度来验证人体图像搜索结果。在与用户的交互中进行用于搜索改进(search refinement)的校正，使得可以获得具有较少错误检测的搜索结果。

在第一实施例和第二实施例中，当给出面部图像作为查询时进行面部图像搜索和人体图像搜索。在第三实施例中，当给出人体图像作为查询时进行面部图像搜索和人体图像搜索。

根据第三实施例的信息处理装置的硬件构造与图1中所示的类似，因此省略其描述。下面将参照图8来描述根据本实施例的信息处理装置的功能构造。下面将仅描述本实施例与第二实施例之间的不同之处。

查询输入单元812指定(输入)用于搜索的人的人体图像。具体而言，将存储在外部存储设备104中的人的人体图像显示在监视器110上并且通过输入设备109由用户操作来指定。根据本公开的用于指定搜索用的人的人体图像的方法不限于这些示例。在这种情况下，可以使用人的一个或更多个人体图像用于搜索。

人体图像搜索单元816将通过人体区域检测单元208和人体图像特征计算单元209根据查询图像而计算出的人体图像特征指定为查询，并且通过使用由人体图像特征累积单元210存储在外部存储设备104中的人体图像特征来搜索人体图像。此外，与人体图像特征的相似度等于或高于预定阈值TH1的人体图像被识别为搜索结果。在计算相似度的情况下，将LBP特征的距离的倒数归一化以获得相似度。

用户使用搜索结果选择单元814从与搜索结果显示单元219上显示的人体图像特征搜索结果相关联的人体图像组中选择一个或更多个人体图像。

查询分选单元815基于由关联信息累积单元211累积在外部存储设备104中的关联信息，确定是否存在与由搜索结果选择单元814选择的人体图像的人体图像特征相关联的面部图像特征。在相关联的面部图像特征被存储在外部存储设备104中的情况下，从外部存储设备104获取面部图像特征。可以通过搜索结果选择单元814分选出多个人体图像，并且可以将多个面部图像特征与单个人体图像特征相关联。结果，可以获取大量的面部图像特征。因此，在这种情况下，从面部图像特征中分选出一个代表性面部图像特征。在分选出面部图像特征的情况下，对面部图像特征进行聚类，并且从各个聚类中仅分选出接近各个聚类的重心的面部图像特征。面部图像搜索单元813将由查询分选单元815分选出的面部图像特征指定为查询，并且使用由面部图像特征累积单元207存储在外部存储设备104中的面部图像特征来进行面部图像搜索。此外，与面部图像特征的相似度高于预定阈值的面部图像被识别为搜索结果。在计算相似度的情况下，获得各个面部特征点处的SIFT特征的距离的总和，并且将距离的总和的倒数归一化以获得相似度。

验证单元817基于由关联信息累积单元211累积在外部存储设备104中的关联信息，来确定是否存在与由人体图像搜索单元216获得的搜索结果的图像相关联的面部图像特征。在相关联的面部图像特征被存储在外部存储设备104中的情况下，从外部存储设备104获取面部图像特征。此外，通过将面部图像特征与根据查询图像的面部图像而计算出的面部图像特征进行比较，来获得相似度。当相似度低于预定阈值TH3时，从搜索结果中删除包括与面部图像特征相关联的人体图像特征的人体图像。人体图像特征的比较的鉴别能力低于面部图像特征的比较的鉴别能力。因此，通过对面部图像特征进行比较来验证人体图像的搜索结果。作为这里使用的阈值TH3，设置等于或小于由搜索结果分选单元214使用的阈值TH2并且大于减少同一人物的检测遗漏的值的值。虽然在本实施例中，从搜索结果中删除人体图像使得验证结果被反映在搜索结果中，但是可以进行校正处理以降低人体图像的搜索结果的相似度。可以通过例如将用于使用面部图像特征的验证的相似度与用于人体图像搜索的相似度相乘来校正人体图像搜索的相似度。

整合单元818对根据第一实施例至第三实施例的面部图像搜索结果和人体图像搜索结果进行整合，对根据第三实施例的属性搜索结果和面部图像搜索结果进行整合，并且还对人体图像搜索结果当中的示出相似面部的结果进行整合，以更新搜索结果。由于人体图像特征的比较的鉴别能力是低的，因此获取大量的相似搜索结果。因此，从似乎示出同一人的结果(即，示出相似面部图像特征的结果)当中，仅保持代表性结果作为搜索结果。这导致搜索结果的冗余减少。整合单元818基于由关联信息累积单元211累积在外部存储设备104中的关联信息，确定是否存在与由人体图像搜索单元216获得的搜索结果图像相关联的面部图像特征。在相关联的面部图像特征被存储在外部存储设备104中的情况下，从外部存储设备104获取面部图像特征。此外，通过对面部图像特征进行比较来获得相似度。当相似度高于预定阈值TH4时，从搜索结果中删除与面部图像特征相关联的人体图像搜索结果当中的、人体图像搜索的得分较低的结果。在这种情况下，将代表同一人的可能性高的高得分设置为阈值TH4。

接下来，将详细描述根据本实施例的信息处理装置800的处理过程。在外部存储设备104中累积面部图像特征和人体图像特征的处理过程与图3中所示的类似。

下面将参照图9描述搜索人物的面部图像和人体图像的处理过程。

图9是例示根据本实施例的搜索人物的面部图像和人体图像的处理过程的示例的流程图。该处理对应于由上述的图6中所示的人体区域检测单元208、人体图像特征计算单元209、查询输入单元812至整合单元818以及搜索结果显示单元219进行的处理，因此省略对处理的详细描述。

在步骤S901中，查询输入单元212接收用于搜索的人体图像。

在步骤S902中，人体区域检测单元208从包括由查询输入单元212接收的人体图像的视频图像中检测人体区域。

在步骤S903中，人体图像特征计算单元209根据在步骤S902中检测到的人体图像来计算人体图像特征。

在步骤S904中，人体图像搜索单元816将在步骤S903中计算出的人体图像特征指定为查询，并且通过使用由人体图像特征累积单元210存储在外部存储设备104中的人体图像特征来搜索人体图像。与人体图像特征的相似度等于或高于预定阈值TH5的人体图像被识别为搜索结果。

步骤S905至S909是由整合单元818进行的处理，并且该处理被循环执行与在步骤S904中搜索到的人体图像的数量相等的次数。

在步骤S906中，整合单元818基于累积在外部存储设备104中的关联信息，来确定与要处理的人体图像的人体图像特征相关联的面部图像特征是否被存储在外部存储设备104中。作为确定的结果，在外部存储设备104中没有存储相关联的面部图像特征的情况下(在步骤S906中为“否”)，处理返回到步骤S905，以对随后的人体图像进行处理。在相关联的面部图像特征被存储在外部存储设备104中的情况下(在步骤S906中为“是”)，处理进行到步骤S907。

在步骤S907中，整合单元1108从外部存储设备104获取面部图像特征，并且在步骤S908中，整合单元1108将在步骤S907中获取的面部图像特征进行比较。此外，在步骤S909中，将在比较面部图像特征时与具有高于阈值TH4的相似度的两个面部图像特征相关联的人体图像特征的搜索结果的得分进行比较，并且从搜索结果中删除得分较低的结果。

在步骤S910中，搜索结果显示单元219在监视器110上显示在步骤S904中搜索并在步骤S905至S909中整合的人体图像的搜索结果以及面部图像。

在步骤S911中，搜索结果选择单元814从监视器110上显示的人体图像搜索结果中选择一个或更多个人体图像和面部图像。在该处理中，用户从输入设备109选择人体图像和面部图像，并且搜索结果选择单元814通过输入设备接口105基于用户指令选择人体图像和面部图像。

在步骤S912中，面部图像搜索单元813将与在步骤S911中设置的面部图像相关联的面部图像特征指定为查询，并且通过使用由面部图像特征累积单元207存储在外部存储设备104中的面部图像特征来搜索面部图像。此外，与面部图像特征的相似度等于或高于预定阈值的面部图像被识别为搜索结果。

在步骤S913中，整合单元818将在步骤S904中获得的人体图像搜索结果与在步骤S912中获得的面部图像搜索结果整合。

在这种情况下，可以通过限制各个照相机的安装位置或摄像时间来更新人体图像搜索结果。具体而言，可以通过添加这样的限制来更新搜索结果：如果可以确认要搜索的人物被显示在特定照相机上，则在紧密时间段内在安装在远离该照相机的位置处的照相机上将不显示该人物。在这种情况下，可以根据在步骤S911中选择的面部图像获得关于各个照相机的位置和时间的信息，并且因此可以添加对人体图像搜索的搜索结果的范围的限制。

在步骤S914中，搜索结果显示单元219在监视器110上显示在步骤S913中整合的搜索结果。如果从同一照相机获得多个结果，则代替显示所有获得的结果，可以仅显示示出最高面部图像相似度的结果。

如上所述，根据本实施例，当给出人体图像作为查询时，由用户从人体图像搜索结果中选择一个或更多个人体图像，并且使用与人体图像特征相关联地登记的面部图像特征进行面部图像搜索。在显示人体图像搜索结果用于用户选择下一个查询的情况下，将与搜索结果的人体图像特征相关联的面部图像特征进行比较，并且如果存在相似的面部，则仅显示人体图像搜索的得分较高的搜索结果作为搜索结果。以这种方式，通过将具有高鉴别能力的面部图像特征进行比较，来校正具有低辨别能力的搜索结果(诸如人体图像搜索结果)，以使得用户能够容易地选择搜索结果同时减少冗余结果显示。

在第一实施例至第三实施例中，从由监视照相机拍摄的视频图像中的人物的图像中提取面部图像特征和人体图像特征，并且将这些特征相关联并存储。在第四实施例中，将通过辨识人物的图像而获得的属性信息和关于随身物品等的信息与图像相关联并存储。在搜索的情况下，基于作为查询而给出的属性信息来搜索面部图像。用户使用属性从面部图像搜索结果中选择一个或更多个面部图像，并且使用面部图像特征来进行面部图像搜索。此外，用户从面部图像搜索结果中选择一个或更多个面部图像，并且使用与面部图像特征相关联地登记的人体图像特征来进行人体图像搜索。以这种方式，在多个阶段中使用与搜索结果相关联的其他特征来进行搜索。

根据第四实施例的信息处理装置的硬件构造与图1中所示的类似，因此省略其描述。下面将参照图10来描述根据本实施例的信息处理装置的功能构造。下面将仅描述本实施例与第二实施例之间的不同之处。

图10是例示根据第四实施例的信息处理装置1000的功能构造示例的框图。视频图像输入单元201至关联信息累积单元211、面部图像搜索单元213、搜索结果选择单元514以及查询分选单元215至搜索结果显示单元219与第二实施例的图6中所示的类似，因此省略其描述。

查询输入单元1012指定(输入)用于搜索的人的面部属性和人体属性。具体而言，选择针对各个属性显示的项目。可以省略一些属性的指定，或者可以针对一个属性选择多个属性。指定方法不限于该方法。用户可以使用自然语言来输入数据，并且可以进行自然语言分析以将数据转换成属性。

整合单元1018通过对根据第一实施例和第二实施例的面部图像搜索结果和人体图像搜索结果进行整合，并且还将属性搜索单元1022的搜索结果与面部图像搜索单元213的搜索结果进行整合，来更新搜索结果。为了整合属性和面部结果，当与面部图像搜索结果相关联的属性与查询不同时，从面部图像搜索结果中删除该属性。

属性辨识单元1020辨识人物的面部图像和人体图像的属性。从面部图像获得的属性包括年龄、性别、种族、发型、眼镜的有无以及面具的有无。为了辨识面部属性，可以使用在日本专利6202937号公报中讨论的公知技术。具体而言，通过使用支持向量机(SVM)对由面部图像特征计算单元206计算的面部图像特征进行学习来创建属性分类器，并且使用该分类器来辨识属性。从人体图像获得的属性包括服装的形状(外套、毛衣、裤子、短裙、连衣裙等)、服装的颜色或图案以及随身物品(形状、颜色)。为了辨识服装的形状、颜色或图案，可以使用在Z.Liu,P.Luo,S.Qiu,X.Wang,X.Tang."Deepfashion:Powering robustclothes recognition and retrieval with richannotations".Proceedings of IEEEConference on Computer Vision and Pattern Recognition(CVPR).2016中讨论的公知技术。为了辨识随身物品，可以使用在Shaoqing Ren,Kaiming He,Ross Girshick,JianSun:"Faster R-CNN:Towards real-time object detection with region proposalnetworks."Computer Vision and Pattern Recognition 2015中讨论的公知技术。根据这些技术，通过使用深度学习对根据人体图像计算出的特征进行学习来创建属性分类器，并且使用该分类器来辨识属性。

属性累积单元1021将由属性辨识单元1020辨识的面部属性和人体属性存储在外部存储设备104中。另外，作为属性的元数据，将诸如人物ID、跟踪人物时使用的跟踪轨迹ID、摄像时间和摄像照相机等的信息与面部图像特征相关联地存储。

属性搜索单元1022基于作为查询而给出的属性信息，搜索与由属性累积单元1021存储在外部存储设备104中的属性匹配的面部图像。此外，将搜索结果的面部图像特征进行比较，并且与面部图像特征的相似度等于或高于预定阈值TH1的面部图像被识别为搜索结果。在计算相似度的情况下，获得各个面部特征点处的SIFT特征的距离的总和，并且将距离的总和的倒数归一化，从而获得相似度。

接下来，将描述根据本实施例的信息处理装置1000的处理过程。

接下来，将参照图11详细描述以视频图像数据可以被搜索的方式来累积从视频图像输入单元201输入的视频图像数据的处理。

图11是例示根据本实施例的累积面部图像特征、人体图像特征和属性的处理过程的示例的流程图。该处理对应于由上述的视频图像输入单元201至关联信息累积单元211、属性辨识单元1020以及属性累积单元1021进行的处理，并且省略对处理的详细描述。

图11中所示的步骤S301至S308分别类似于图3中所示的步骤S301至S308。

在步骤S1101中，属性辨识单元1020从面部图像中提取属性。

在步骤S1102中，面部图像特征累积单元207将在步骤S308中计算出的面部图像特征存储在外部存储设备104中，并且将由属性累积单元1021在步骤S1101中提取的面部属性存储在外部存储设备104中。另外，作为面部图像特征和面部属性的元数据，将诸如人物ID、跟踪人物时使用的跟踪轨迹ID、摄像时间和摄像照相机等的信息与面部图像特征和面部属性相关联地存储。

图11中所示的步骤S310至S312分别类似于图3中所示的步骤S310至S312。

在步骤S1103中，属性辨识单元1020从人体图像中提取属性。

在步骤S1104中，人体图像特征累积单元210将在步骤S312中计算出的人体图像特征存储在外部存储设备104中，并且将由属性累积单元1021在步骤S1103中提取的人体属性存储在外部存储设备104中。另外，作为人体图像特征和人体属性的元数据，将诸如人物ID、跟踪人物时使用的跟踪轨迹ID、摄像时间和摄像照相机等的信息与人体图像特征和人体属性相关联地存储。

图11中所示的步骤S314类似于图3中所示的步骤S314。

在步骤S1105中，关联信息累积单元211将关联信息存储在外部存储设备104中，然后终止处理，所述关联信息将根据同一人物计算出的面部图像特征、人体图像特征、面部属性以及人体属性相关联。

下面将参照图12描述搜索人物的面部图像特征和人体图像特征的处理过程。该处理对应于由上述的图10中所示的查询输入单元1012、面部图像搜索单元213、搜索结果选择单元514、查询分选单元215至搜索结果显示单元219、搜索结果选择单元514以及属性搜索单元1022进行的处理，并且省略对处理的详细描述。

图12是例示根据本实施例的搜索人物的面部图像和人体图像的处理过程的示例的流程图。

在步骤S1201中，查询输入单元1012指定(输入)用于搜索的人的面部属性和人体属性。

在步骤S1202中，属性搜索单元1022基于作为查询而给出的属性信息，搜索与由属性累积单元1021存储在外部存储设备104中的属性匹配的面部图像。

当同一人物的多个图像被登记时，在属性搜索中输出针对同一人物的多个结果。为了避免这种情况，可以进行根据第三实施例的步骤S905至S909的处理。具体而言，可以将搜索结果的面部图像特征进行比较，并且如果存在与面部图像特征的相似度等于或高于预定阈值TH4的面部图像，则可以从属性搜索结果中删除所比较的面部图像特征中的一个。在计算相似度的情况下，获得各个面部特征点处的SIFT特征的距离的总和，并且将距离的总和的倒数归一化，以获得相似度。

在步骤S1203中，搜索结果显示单元219在监视器110上显示在步骤S1202中获得的面部图像搜索结果。

在步骤S1204中，搜索结果选择单元514从监视器110上显示的面部图像搜索结果中选择一个或更多个面部图像。在该处理中，用户从输入设备109选择面部图像，并且搜索结果选择单元514通过输入设备接口105基于用户指令选择面部图像。

图12中所示的步骤S404类似于图7中所示的步骤S404。

在步骤S1205中，整合单元218将步骤S1202中的属性搜索的搜索结果与步骤S404中的面部图像搜索的搜索结果整合。

图12中所示的步骤S701至S413分别类似于图7中所示的步骤S701至S413。

在步骤S1206中，验证单元217基于累积在外部存储设备104中的关联信息，来确定与要处理的人体图像的人体图像特征相关联的面部图像特征是否被存储在外部存储设备104中。验证单元217还确定与要处理的人体图像的人体图像特征相关联的属性信息是否被存储在外部存储设备104中。作为确定的结果，在外部存储设备104中均没有存储相关联的面部图像特征和相关联的属性信息二者的情况下(在步骤S1206中为“否”)，处理返回到步骤S413，以对随后的人体图像进行处理。在外部存储设备104中存储相关联的面部图像特征和相关联的属性信息中的一个的情况下(在步骤S1206中为“是”)，处理进行到步骤S1207。

在步骤S1207中，在面部图像特征被存储的情况下，验证单元217从外部存储设备104获取面部图像特征，并且将所获取的面部图像特征与在步骤S1204中选择的面部图像搜索的查询的面部图像特征进行比较，以获得相似度。在属性信息被存储的情况下，从外部存储设备104获取属性信息，并且将所获取的属性信息与在步骤S1201中输入的属性信息进行比较。

在步骤S1208中，验证单元217确定在步骤S1207中计算出的相似度是否低于预定阈值TH3或者属性信息是否相同。作为确定的结果，在相似度等于或高于预定阈值TH3并且属性信息相同的情况下(在步骤S1208中为“否”)，处理返回到步骤S413，以对随后的人体图像进行处理。在相似度低于预定阈值TH3的情况下，或者在属性不同的情况下，则处理进行到步骤S417。

图12中所示的步骤S417至S419分别类似于图7中所示的步骤S404至S413。

如上所述，根据本实施例，从由监视照相机拍摄的视频图像中的人物图像提取面部图像特征和人体图像特征，并且提取通过辨识人物图像而获得的属性信息和关于随身物品等的信息，然后将这些特征与图像相关联并存储。在搜索的情况下，基于作为查询而给出的属性信息来搜索面部图像。用户使用属性从面部图像搜索结果中选择一个或更多个面部图像，并且使用面部图像特征来进行面部图像搜索。此外，用户从面部图像搜索结果中选择一个或更多个面部图像，并且使用与面部图像特征相关联地登记的人体图像特征来进行人体图像搜索。以这种方式，在多个阶段中使用与搜索结果相关联的其他特征来进行搜索。利用这种构造，当给出属性信息作为查询时，可以进行面部图像搜索和人体图像搜索。

在本实施例中，使用面部图像特征、人体图像特征和属性信息来进行三个阶段的搜索处理，但是本公开不限于该处理。还可以使用步态特征、车辆、动作等作为第四特征、第五特征和第六特征。在本实施例中，集合地处理所有的属性信息。作为选择，可以将从面部图像获得的属性以及从人体图像获得的属性(诸如随身物品等)处理为分开的特征。可以在多个阶段中组合这些特征用以搜索。此外，还可以在多个阶段中组合同伴的特征用以搜索。

在第一实施例至第四实施例中，从通过对由监视照相机拍摄的视频图像中的人物进行跟踪而获得的同一人物的一系列图像中提取面部图像特征和人体图像特征，并且将这些特征相关联并存储。在第五实施例中，当从由监视照相机拍摄的视频图像的帧图像中获得人物的面部图像和人体图像而不对人物进行跟踪时，将面部图像特征和人体图像特征相关联并存储。

根据第五实施例的信息处理装置的硬件构造与图1中所示的类似，因此省略其描述。将参照图13描述根据本实施例的信息处理装置的功能构造。下面将仅描述本实施例与第二实施例之间的不同之处。

图13是例示根据第五实施例的信息处理装置1300的功能构造示例的框图。该构造对应于从图6中所示的构造中省略跟踪处理单元203和代表性面部图像确定单元205的构造。

面部检测单元204从由视频图像输入单元201接收的视频图像的帧图像中直接进行面部检测。在本实施例中，代替选择代表性面部图像，面部图像特征计算单元206针对由面部检测单元204检测到的所有面部图像计算面部图像特征。人体区域检测单元208从由视频图像输入单元201接收的视频图像的帧图像中直接进行人体区域检测。

接下来，将详细描述根据本实施例的信息处理装置1300的处理过程。搜索人物的面部图像和人体图像的处理过程与图7中所示的类似，因此省略其描述。将参照图14描述在外部存储设备104中累积面部图像特征和人体图像特征的处理过程。

图14是例示根据本实施例的在外部存储设备104中累积面部图像特征和人体图像特征的处理过程的示例的流程图。

首先，步骤S301至S302分别类似于图3中所示的步骤S301至S302。

在步骤S1401中，面部检测单元204从由视频图像输入单元201接收的视频图像的帧图像中直接进行面部检测。随后的步骤S306类似于图3中所示的步骤S306。在存在检测到的面部的情况下(在步骤S306中为“是”)，处理进行到步骤S1402。

在步骤S1402中，面部图像特征计算单元206根据在步骤S1401中检测到的面部图像来计算面部图像特征。

在步骤S1403中，面部图像特征累积单元207将在步骤S1401中计算出的面部图像特征存储在外部存储设备104中。另外，作为面部图像特征的元数据，将诸如人物ID、摄像时间和摄像照相机等的信息与面部图像特征相关联地存储。在本实施例中，不进行跟踪处理，因此元数据中不包括跟踪轨迹ID。

在步骤S1404中，人体区域检测单元208从由视频图像输入单元201接收的视频图像的帧图像中直接进行人体区域检测。步骤S311至S312分别类似于图3中所示的步骤S311至S312。

在步骤S1405中，人体图像特征累积单元210将在步骤S312中计算出的人体图像特征存储在外部存储设备104中。另外，作为人体图像特征的元数据，将诸如人物ID、摄像时间和摄像照相机等的信息与人体图像特征相关联地存储。在本实施例中，不进行跟踪处理，因此元数据中不包括跟踪轨迹ID。

在步骤S1406中，关联信息累积单元211确定是否存在与人物匹配的、在步骤S1401中检测到的面部和在步骤S1404中检测到的人体的组合。例如，通过参照面部图像特征和人体图像特征的元数据，基于诸如人物ID、摄像时间和摄像照相机等的信息，来综合地确定检测到的面部和身体是否与人物匹配。作为确定的结果，在存在与人物匹配的组合的情况下(在步骤S1406中为“是”)，处理进行到步骤S315。在没有与人物匹配的组合的情况下(在步骤S1406中为“否”)，处理终止。步骤S315类似于图3中所示的步骤S315。

如上所述，根据本实施例，当从由监视照相机拍摄的视频图像的帧图像中获得人物的面部图像和人体图像而不对人物进行跟踪时，将面部图像特征和人体图像特征相关联并存储。在跟踪人物的情况下，需要具有高帧率的视频图像。然而，本实施例消除了对具有高帧率的视频图像的需要，这使得视频图像分析处理和网络负荷减少。可以通过从一个静止图像中提取多个特征量来进行类似的搜索。

在上述的第一实施例至第三实施例中，从由一个照相机拍摄的人物的图像中提取面部图像特征和人体图像特征，并且将这些特征相关联并存储。另一方面，当安装了多个监视照相机时，会通过交叠视场中的照相机来拍摄同一场所的图像。在这种情况下，针对同一场所获得多个视频图像。具体而言，当在该场所处存在人物时，可以获得诸如从正面拍摄的视频图像、从背面拍摄的视频图像、包括清晰面部的视频图像、以及面部图像模糊但全身图像清晰的视频图像等的图像。可以通过使用三角测量的原理，将包括在视频图像中的人物识别为同一人物。因此，可以将从多个照相机获得的同一人物的面部图像特征和人体图像特征相关联并存储。通过这种构造，可以将面部图像特征和人体图像特征更精确地与具有不同视角的图像相关联。

使用如M.Farenzena等人中所述的照相机间人物跟踪技术使得可以识别由多个照相机拍摄的图像当中的同一人物。而且，在这种情况下，关联信息累积单元211可以以将特征彼此相关联的方式来存储从多个照相机获得的同一人物的面部图像特征和人体图像特征。从不同照相机获得的面部图像和人体图像中的人物图像可以被识别为同一人物的图像。因此，如果可以搜索到一部分图像，则可以将一系列图像视为同一人物的图像。因此，能够增加各种照相机的检测率。

上述的实施例示出了检测人物作为对象的示例，并且将面部图像用作具有高鉴别能力的特征，将人体图像用作具有低鉴别能力的特征。但是，在本公开中，对象不限于人物。例如，可以将本公开应用于诸如狗或猫的动物或者诸如汽车的车辆。当将本公开应用于动物时，能够将面部图像、身体图案或服装用作具有高鉴别能力的特征，并且能够将整个形状或颜色用作具有低鉴别能力的特征。当将本公开应用于汽车时，可以将识别编号周围区域的图像用作具有高鉴别能力的特征，并且可以将整体形状或颜色用作具有低鉴别能力的特征。本公开不限于搜索与查询图像中包括的对象相同的对象的情况，而是可以应用于用于搜索相似对象的结构。例如，如果将动物设置为对象，则可以搜索与该动物不同但与该动物是相同种类的动物。如果将汽车设置为对象，则能够搜索与该汽车不同但例如与该汽车是相同类型和颜色的汽车。

本公开也能够以这样的方式来实现：将用于实现根据上述实施例的一个或更多个功能的程序经由网络或记录介质提供给系统或装置，并且系统或装置的计算机中的一个或更多个处理器读取并执行该程序。本公开也能够由用于实现根据上述实施例的一个或更多个功能的电路(例如，专用集成电路(ASIC))来实现。

根据本公开，能够通过有效地组合对象的特征来精确地搜索关注对象。

其他实施例

另外，可以通过读出并执行记录在存储介质(也可更完整地称为“非暂时性计算机可读存储介质”)上的计算机可执行指令(例如，一个或更多个程序)以执行上述实施例中的一个或更多个的功能、并且/或者包括用于执行上述实施例中的一个或更多个的功能的一个或更多个电路(例如，专用集成电路(ASIC))的系统或装置的计算机，来实现本公开的实施例，并且，可以利用通过由系统或装置的计算机例如读出并执行来自存储介质的计算机可执行指令以执行上述实施例中的一个或更多个的功能、并且/或者控制一个或更多个电路执行上述实施例中的一个或更多个的功能的方法，来实现本发明的实施例。所述计算机可以包括一个或更多个处理器(例如，中央处理单元(CPU)、微处理单元(MPU))，并且可以包括分开的计算机或分开的处理器的网络，以读出并执行所述计算机可执行指令。所述计算机可执行指令可以例如从网络或所述存储介质被提供给计算机。所述存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储器、光盘(诸如压缩光盘(CD)、数字通用光盘(DVD)或蓝光光盘(BD)TM)、闪存设备以及存储卡等中的一个或更多个。

本发明的实施例还可以通过如下的方法来实现，即，通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置，该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。

虽然参照示例性实施例对本发明进行了描述，但是应当理解，本发明并不限于所公开的示例性实施例。应当对所附权利要求的范围给予最宽的解释，以涵盖所有这些变型例以及等同的结构和功能。

Claims

1.一种信息处理装置，所述信息处理装置包括：

第一获取单元，其被构造为从包括搜索对象的搜索源图像获取第一特征；

第一搜索单元，其被构造为基于由所述第一获取单元获取的第一特征，从多个图像中搜索所述搜索对象；

第二获取单元，其被构造为从由所述第一搜索单元搜索到的搜索对象获取第二特征，其中所述第二特征不同于所述第一特征，以及

第二搜索单元，其被构造为基于由所述第二获取单元获取的第二特征，从尚未被所述第一搜索单元检测到所述搜索对象的多个图像当中的图像中搜索所述搜索对象。

2.根据权利要求1所述的信息处理装置，其中，所述第二搜索单元通过将所述第二搜索单元的搜索结果与所述第一搜索单元的搜索结果整合来更新所述第一搜索单元的搜索结果。

3.根据权利要求1所述的信息处理装置，

其中，所述第二获取单元从对象中获取第二特征，从包括所述对象的图像中获得的特征与第一特征之间的相似度大于第一阈值。

4.根据权利要求2所述的信息处理装置，所述信息处理装置还包括：

生成单元，其被构造为通过使用基于所述第一特征计算的第一相似度和基于所述第二特征计算的第二相似度，来生成所述第一相似度与所述第二相似度之间的转换公式；以及

第一计算单元，其被构造基于第一搜索单元或第二搜索单元的搜索结果中包括的搜索对象的特征与转换公式之间的相似度，来计算未包括在搜索结果中的特征的相似度，

其中，所述第二搜索单元通过使用第一特征的相似度和第二特征的相似度中的至少一者来更新所述第一搜索单元的搜索结果。

5.根据权利要求4所述的信息处理装置，所述信息处理装置还包括：

第一比较单元，其被构造为在所述第二搜索单元的搜索结果中包括与所述第一搜索单元未搜索到的搜索对象相关联的第一特征的情况下，计算所述第一特征的相似度；以及

第二比较单元，其被构造为在所述第一搜索单元的搜索结果中包括与所述第二搜索单元未搜索到的搜索对象相关联的第二特征的情况下，计算所述第二特征的相似度。

6.根据权利要求5所述的信息处理装置，其中，所述生成单元通过使用由所述第一比较单元计算出的所述第一特征的相似度和由所述第二比较单元计算出的所述第二特征的相似度来生成所述转换公式。

7.根据权利要求4所述的信息处理装置，其中，所述生成单元通过生成所述第一特征的相似度和所述第二特征的相似度之间的散布图和近似式来生成所述转换公式。

8.根据权利要求4所述的信息处理装置，所述信息处理装置还包括：

第二计算单元，其被构造为通过使用所述第一特征的相似度和所述第二特征的相似度来计算整合相似度，

其中，所述第二搜索单元通过使用所述整合相似度来更新所述第一搜索单元的搜索结果。

9.根据权利要求4所述的信息处理装置，其中，所述第二搜索单元通过使用所述第一特征和所述第二特征中的具有更高的可鉴别性的一者的相似度，来更新所述第一搜索单元的搜索结果。

10.根据权利要求1所述的信息处理装置，其中，所述第一搜索单元通过使用与由所述第一获取单元获取的所述第一特征的相似度等于或高于阈值的特征，来搜索所述搜索对象。

11.根据权利要求1所述的信息处理装置，其中，所述第二搜索单元使用由用户从所述第一搜索单元的搜索结果中指定的特征。

12.根据权利要求3所述的信息处理装置，所述信息处理装置还包括：

存储单元，其被构造为以将所述第一特征、所述第二特征和图像与所述图像的获取位置和所述图像的获取时间中的至少一者相关联的方式，存储所述第一特征、所述第二特征和所述图像。

13.根据权利要求12所述的信息处理装置，其中，所述第二搜索单元基于与由所述第二获取单元获取的所述第二特征相关联的获取位置和获取信息中的至少一者来搜索所述搜索对象。

14.根据权利要求12所述的信息处理装置，其中，所述第二搜索单元基于与所述第二特征相关联的获取位置和获取信息中的至少一者来更新所述第一搜索单元的搜索结果。

15.根据权利要求14所述的信息处理装置，其中，所述第二搜索单元通过使用与所述第一特征和所述第二特征中的各个不同的第三特征来搜索所述搜索对象，并且通过使用搜索结果来更新所述第一搜索单元的搜索结果。

16.根据权利要求12所述的信息处理装置，其中，所述存储单元存储与被跟踪的搜索对象相关联的第一特征和第二特征。

17.根据权利要求16所述的信息处理装置，其中，所述存储单元将搜索对象的第一特征和第二特征存储在从以照相机的视场彼此交叠的方式安装的多个照相机获得的图像中。

18.根据权利要求12所述的信息处理装置，所述信息处理装置还包括：

第三获取单元，其被构造为从所述存储单元获取与所述第二特征相关联的第一特征；以及

验证单元，其被构造为通过将由所述第三获取单元获取的第一特征与由所述第一获取单元获取的第一特征进行比较，来验证所述第二搜索单元的搜索结果。

19.根据权利要求18所述的信息处理装置，其中，在由所述第三获取单元获取的第一特征与由所述搜索源图像获取的第一特征之间的相似度低于阈值的情况下，所述验证单元从所述第二搜索单元的搜索结果中删除所述第二特征。

20.根据权利要求19所述的信息处理装置，所述信息处理装置还包括：

比较单元，其被构造为在所述第二特征的可鉴别性高于阈值的情况下，将由所述第二获取单元获取的第二特征进行比较，

其中，在由所述比较单元计算的相似度高于阈值的情况下，所述验证单元从所述第一搜索单元的搜索结果中删除与第二特征中的一个相关联的第一特征。

21.根据权利要求1所述的信息处理装置，所述信息处理装置还包括：

显示单元，其被构造为在显示设备上显示代表所述第一搜索单元的搜索结果的图像，其中由更新单元更新所述第一搜索单元的搜索结果。

22.根据权利要求21所述的信息处理装置，其中，所述显示单元以不同的显示模式显示所述第一搜索单元的搜索结果和所述第二搜索单元的搜索结果。

23.根据权利要求21所述的信息处理装置，其中，所述显示单元在不同的显示设备上显示所述第一搜索单元的搜索结果和所述第二搜索单元的搜索结果。

24.根据权利要求21所述的信息处理装置，其中，所述显示单元切换如下两个模式：用于在同一显示设备上显示所述第一搜索单元的搜索结果和所述第二搜索单元的搜索结果的模式以及用于在不同的显示设备上显示所述第一搜索单元的搜索结果和所述第二搜索单元的搜索结果的模式。

25.根据权利要求1所述的信息处理装置，其中，所述搜索对象是人物。

26.根据权利要求25所述的信息处理装置，其中，所述第一特征和所述第二特征中的各个是从面部图像获得的特征、从人体图像获得的特征、从人物的随身物品获得的特征以及从人物获得的属性中的一者。

27.根据权利要求1所述的信息处理装置，其中，从与在原图像中获取第一特征的区域不同的区域中获取所述第二特征。

28.一种用于信息处理装置的方法，所述方法包括：

作为第一获取步骤，从包括搜索对象的搜索源图像获取第一特征；

作为第一搜索步骤，基于由所述第一获取步骤获取的第一特征，从多个图像中搜索所述搜索对象；

作为第二获取步骤，从由所述第一搜索步骤搜索到的搜索对象获取第二特征，其中所述第二特征不同于所述第一特征，以及

作为第二搜索步骤，基于由所述第二获取步骤获取的第二特征，从尚未被第一搜索步骤检测到所述搜索对象的多个图像当中的图像中搜索所述搜索对象。

29.一种非暂时性计算机可读存储介质，其存储使计算机执行用于信息处理装置的方法的程序，所述方法包括：