CN107315984B

CN107315984B - 一种行人检索的方法及装置

Info

Publication number: CN107315984B
Application number: CN201610265023.4A
Authority: CN
Inventors: 张伟; 陈茂林; 骆立俊; 尤乾坤
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-04-26
Filing date: 2016-04-26
Publication date: 2020-04-28
Anticipated expiration: 2036-04-26
Also published as: CN107315984A

Abstract

本发明的实施例提供一种行人检索的方法及装置，涉及智能视频分析领域，能够提取行人图像的多种特征，根据行人的多种特征建立高维索引，根据行人的多种特征联合检索，有效提高检索精度。包括：从待分析的视频帧中获取行人图像序列集合；针对每个行人图像序列，根据多实例特征提取算法获取多实例行人图像；根据每个行人的多实例行人图像获取所述行人的低层特征和语义特征；根据每个所述行人的低层特征和语义特征构建高维索引；根据第一行人的样例图像的低层特征和文字描述的语义特征中至少一个检索高维索引，得到检索结果。

Description

一种行人检索的方法及装置

技术领域

本发明涉及智能视频分析领域，尤其涉及一种行人检索的方法及装置。

背景技术

智能视频分析技术是计算机根据检索条件自动地分析视频内容，从海量的视频中检索出满足检索条件的图像或视频片段。行人检索是智能视频分析领域的“以图搜图”，具体来说，就是根据行人的全部或部分图像在海量的图像或视频中检索出所有包含该行人的图像或视频片段。

通常，行人检索装置包含特征提取模块和高维索引模块。特征提取模块用于提取行人特征。高维索引模块是行人检索装置实现实时检索的关键，用于根据检索条件对从海量的图像或视频中提取的行人的高维特征进行快速有效的检索。而行人具有相似轮廓和结构，行人检索装置对高维特征的区分力要求较高，行人检索装置要求提取多种高维特征增加行人和行人之间的区分力，来区分行人和行人之间的差异。

在现有技术中，行人检索装置的输入通常是一幅包含行人的样例图像，在检索时，将样例图像的高维特征与海量的图像的高维特征进行比对，根据样例图像的高维特征与海量的图像的高维特征的相似度进行排序，从海量的图像中获取与样例图像相似的图像。因此，现有的行人检索装置只能根据样例图像进行粗略的检索，无法支持多种高维特征的联合检索，检索精度较低。

发明内容

本发明的目的在于提供一种行人检索的方法及装置，能够提取行人图像的多种特征，根据行人的多种特征联合检索，有效提高检索精度。

上述目标和其他目标将通过独立权利要求中的特征来达成。进一步的实现方式在从属权利要求、说明书和附图中体现。

第一方面，提供一种行人检索的方法，包括：

首先，从待分析的视频帧中获取行人图像序列集合，该行人图像序列集合包括了多个行人的行人图像序列，而行人图像序列表示一个行人的多幅行人图像，所述行人图像包括行人的视频帧图像和用来表示行人位置的掩码模板，即行人的图像和行人所处的背景图像；然后，针对每个行人图像序列，根据多实例特征提取算法获取多实例行人图像，该多实例行人图像为根据行人图像序列包括的行人图像的局部区块特征获取的行人图像的集合；根据每个行人的多实例行人图像获取所述行人的低层特征和语义特征；根据每个所述行人的低层特征和语义特征构建高维索引；根据第一行人的样例图像的低层特征和文字描述的语义特征中至少一个检索高维索引，得到检索结果。

上述第一方面提供的行人检索的方法，首先，从待分析的视频帧中获取包括多个行人的行人图像序列的行人图像序列集合，然后，针对每个行人图像序列，根据多实例特征提取算法获取多实例行人图像，而所述多实例行人图像为根据行人图像序列包括的行人图像的局部区块特征获取的行人图像的集合，根据每个行人的多实例行人图像获取所述行人的低层特征和语义特征来构建高维索引，以便于从需要检索的行人的样例图像获取低层特征和文字描述获取语义特征中至少一个检索高维索引，得到检索结果。从而能够针对行人的多种特征建立高维索引，根据行人的多种特征联合检索，有效提高检索精度。

在第一方面的第一种可实现方式中，所述针对每个行人图像序列，根据多实例特征提取算法获取多实例行人图像包括：

多实例特征提取算法包括多实例特征生成算法和多实例特征提取算法，多实例特征生成算法步骤包括对行人图像序列包括的每幅行人图像中的行人的朝向进行估计；按照行人的朝向对行人图像序列包括的每幅行人图像进行分类；对每类朝向的每个行人图像提取局部区块特征；根据自适应聚类算法从每类朝向的行人图像的局部区块特征中获取多实例行人图像。

结合第一方面的第一种可实现方式，在第一方面的第二种可实现方式中，所述根据每个行人的多实例行人图像获取所述行人的低层特征和语义特征包括：

多实例特征提取算法步骤包括根据每类朝向的每个行人图像的多实例行人图像提取低层特征，所述低层特征用于描述行人的颜色、纹理以及空间分布的表观特征；根据每类朝向的每个行人图像的多实例行人图像提取的低层特征生成语义特征。

结合第一方面的第二种可实现方式中任一种可实现方式，在第三种可实现方式中，所述根据每个所述行人的低层特征和语义特征构建高维索引包括：

将相似的低层特征划分到相同的数据单元，以数据结构的方式存储数据单元；以表格的方式存储语义特征。

结合第一方面、第一方面的第一种可实现方式至第一方面的第三种可实现方式中任一种可实现方式，在第四种可实现方式中，所述高维索引还包括感兴趣区域的感兴趣区域特征，所述感兴趣区域为根据固定提取方式或随机提取方式获取的区域，其中，所述感兴趣区域特征为低层特征或语义特征，即感兴趣区域特征可以以低层特征表示或以语义特征表示。在高维索引中，感兴趣区域特征以存储低层特征的方式存储或以存储语义特征的方式存储。

结合第一方面的第四种可实现方式，在第五种可实现方式中，所述方法还包括：

根据第一行人的样例图像的低层特征、文字描述的语义特征和感兴趣区域的感兴趣区域特征中至少一个检索高维索引，得到检索结果。即可以根据第一行人的样例图像的低层特征、文字描述的语义特征和感兴趣区域的感兴趣区域特征的任意的组合检索高维索引，得到检索结果。

第二方面，提供一种行人检索装置，包括：

行人图像序列获取模块，用于从待分析的视频帧中获取行人图像序列集合，所述行人图像序列集合包括多个行人的行人图像序列，所述行人图像序列表示一个行人的多幅行人图像，所述行人图像包括行人的视频帧图像和用来表示行人位置的掩码模板；多实例特征提取模块，用于针对每个行人图像序列，根据多实例特征提取算法获取多实例行人图像，所述多实例行人图像为根据行人图像序列包括的行人图像的局部区块特征获取的行人图像的集合；所述多实例特征提取模块，还用于根据每个行人的多实例行人图像获取所述行人的低层特征、语义特征和感兴趣区域特征；高维索引模块，用于根据每个所述行人的低层特征、语义特征和感兴趣区域特征构建高维索引；所述高维索引模块，还用于根据第一行人的样例图像的低层特征、文字描述的语义特征和感兴趣区域的感兴趣区域特征中至少一个检索高维索引，得到检索结果。

上述第二方面提供的行人检索装置，首先，从待分析的视频帧中获取包括多个行人的行人图像序列的行人图像序列集合，然后，针对每个行人图像序列，根据多实例特征提取算法获取多实例行人图像，而所述多实例行人图像为根据行人图像序列包括的行人图像的局部区块特征获取的行人图像的集合，根据每个行人的多实例行人图像获取所述行人的低层特征和语义特征来构建高维索引，以便于从需要检索的行人的样例图像获取低层特征和文字描述获取语义特征中至少一个检索高维索引，得到检索结果。从而能够针对行人的多种特征建立高维索引，根据行人的多种特征联合检索，有效提高检索精度。

具体的实现方式可以参考第一方面提供的行人检索的方法中行人检索装置的行为的功能。

需要说明的是，上述第二方面所述功能模块可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。例如，处理器，用于完成行人图像序列获取模块、多实例特征提取模块和高维索引模块的功能，存储器，用于存储高维索引。处理器和存储器通过总线连接并完成相互间的通信。具体的，可以参考第一方面提供的行人检索的方法中行人检索装置的行为的功能。

本发明中，行人检索装置的名字对设备本身不构成限定，在实际实现中，这些设备可以以其他名称出现。只要各个设备的功能和本发明类似，属于本发明权利要求及其等同技术的范围之内。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种计算机设备结构示意图；

图2为本发明实施例提供的一种行人检索的方法流程图；

图3为本发明实施例提供的另一种行人检索的方法流程图；

图4为本发明实施例提供的又一种行人检索的方法流程图；

图5为本发明实施例提供的一种高维索引结构示意图；

图6为本发明实施例提供的一种行人检索装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述。

本发明的基本原理在于：相对于现有的行人检索装置只能根据样例图像进行粗略的检索，本发明所述的行人检索装置首先，从待分析的视频帧中获取包括多个行人的行人图像序列的行人图像序列集合，然后，针对每个行人图像序列，根据多实例特征提取算法获取多实例行人图像，而所述多实例行人图像为根据行人图像序列包括的行人图像的局部区块特征获取的行人图像的集合，根据每个行人的多实例行人图像获取所述行人的低层特征和语义特征来构建高维索引，以便于从需要检索的行人的样例图像获取低层特征和文字描述获取语义特征中至少一个检索高维索引，得到检索结果。从而能够针对行人的多种特征建立高维索引，根据行人的多种特征联合检索，有效提高检索精度。

下面将参考附图详细描述本发明的实施方式。

实施例1

本发明实施例提供一种计算机设备(或系统)100，如图1所示，以图1所示的计算机设备(或系统)来实现行人检索装置，包括至少一个处理器101，通信总线102，存储器103以及至少一个通信接口104。

处理器101可以是一个处理器，也可以是多个处理元件的统称。例如，处理器101可以是一个通用中央处理器(英文全称：Central Processing Unit，英文简称：CPU)，也可以是特定应用集成电路(英文全称：application-specific integrated circuit，英文简称：ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路，例如：一个或多个微处理器(英文全称：digital signal processor，英文简称：DSP)，或，一个或者多个现场可编程门阵列(英文全称：Field Programmable Gate Array，英文简称：FPGA)。

在具体实现中，作为一种实施例，处理器101可以包括一个或多个CPU，例如图1中的CPU0和CPU1。

在具体实现中，作为一种实施例，计算机设备100可以包括多个处理器，例如图1中的处理器101和处理器105。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

通信总线102可以是工业标准体系结构(英文全称：Industry StandardArchitecture，英文简称：ISA)总线、外部设备互连(英文全称：Peripheral Component，英文简称：PCI)总线或扩展工业标准体系结构(英文全称：Extended Industry StandardArchitecture，英文简称：EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图1中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器103可以是只读存储器(英文全称：read-only memory，英文简称：ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(英文全称：randomaccess memory，英文简称：RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(英文全称：Electrically Erasable Programmable Read-Only Memory，英文简称：EEPROM)、只读光盘(英文全称：Compact Disc Read-Only Memory，英文简称：CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，所述存储器103用于存储执行本发明方案的应用程序代码，并由处理器101来控制执行。所述处理器101用于执行所述存储器103中存储的应用程序代码。

所述通信接口104，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(英文全称：Wireless Local Area Networks，英文简称：WLAN)等。通信接口104可以包括接收单元实现接收功能，以及发送单元实现发送功能。

在具体实现中，作为一种实施例，处理器101，用于从待分析的视频帧中获取行人图像序列集合；

处理器101，还用于针对每个行人图像序列，根据多实例特征提取算法获取多实例行人图像；

处理器101，还用于根据每个行人的多实例行人图像获取所述行人的低层特征、语义特征和感兴趣区域特征；

处理器101，还用于根据每个所述行人的低层特征、语义特征和感兴趣区域特征构建高维索引；

处理器101，还用于根据第一行人的样例图像的低层特征、文字描述的语义特征和感兴趣区域的感兴趣区域特征中至少一个检索高维索引，得到检索结果。

存储器103，用于存储高维索引。

通信接口104，用于获取第一行人的样例图像、文字描述和感兴趣区域中至少一个。

实施例2

本发明实施例提供一种行人检索的方法，应用于行人检索装置，如图2所示，所述方法包括：

步骤201、从待分析的视频帧中获取行人图像序列集合。

行人检索装置根据现有的行人检测跟踪算法从待分析的视频帧中获取行人图像序列，具体如何获取可以参考现有技术的具体方法，本发明在此不再赘述。通过多个行人的行人图像序列构成行人图像序列集合，所述行人图像序列表示一个行人的多幅行人图像，所述行人图像包括根据行人检测跟踪算法输出的检测框对应的行人的视频帧图像和用来表示行人位置的掩码模板。

步骤202、针对每个行人图像序列，根据多实例特征提取算法获取多实例行人图像。

多实例行人图像为根据行人图像序列包括的行人图像的局部区块特征获取的行人图像的集合。

具体的，可以根据行人的朝向以及从行人的表观提取行人的局部区块特征，对行人图像序列进行分析，生成表观特征互补的多实例行人图像，从而表征视角、光照、行人姿态等变化引起的表观变化。表观特征也是用来描述行人的颜色、纹理以及空间分布等的低层特征。

步骤203、根据每个行人的多实例行人图像获取所述行人的低层特征和语义特征。

对于行人的低层特征，可以对每个行人的每幅多实例行人图像提取表观特征，所述表观特征是用来描述行人的颜色、纹理以及空间分布等的低层特征。

示例的，对于颜色特征，本发明实施例以HSV颜色空间下的直方图为例：(1)将多实例行人图像在水平方向等分为7个条带；(2)将H、S、V分别量化为8、8、8个单元，然后对每个条带统计像素点的H、S、V直方图；(3)将H、S、V直方图进行拼接，最后将7个条带的直方图进行拼接，得到整个多实例行人图像的颜色直方图。

对于纹理特征，本发明实施例以梯度直方图特征为例：(1)将多实例行人图像在水平方向等分为7个条带；(2)对每个条带中的像素计算梯度方向(0～360°)，将梯度方向均匀量化到8个单元中；(3)对每个像素点的梯度方向用周围邻域像素的平均值进行平滑；(4)统计每个条带的梯度直方图，并将直方图归一化使得直方图像素值的和为1，最后将每个条带的直方图拼接成一个。

对于行人的语义特性，可以利用对多实例行人图像提取的低层特征来生成行人的语义特征描述，例如可以对衣着的颜色、纹理或款式的语义特征描述。那么。以衣服的颜色为例，对提取的颜色直方图低层特征进行特性分析，统计直方图元素的最大值，最大值对应的HSV值作为得到衣着的主颜色，从而实现查询基于主颜色文字描述的行人检索。

步骤204、根据每个所述行人的低层特征和语义特征构建高维索引。

高维索引可以按分层的结构进行存储，第一层按照行人的朝向进行划分，第二层存储低层特征和语义特征。

步骤205、根据第一行人的样例图像的低层特征和文字描述的语义特征中至少一个检索高维索引，得到检索结果。

对于根据第一行人的样例图像的低层特征进行检索时，根据第一行人的样例图像的低层特征，在高维索引中查找到低层特征所属的数据子空间，定位划分单元，取出高维索引中划分单元中的数据作为候选集合。以局部敏感哈希为例，首先将查询数据输入到级联函数中，计算查询数据的哈希值。访问哈希表中所述哈希值对应表项的数据集合，将该集合作为候选数据点。计算查询数据和候选点的距离并排序，输出排序后的结果。

对候选集合进行融合。融合的策略，比如可对每个索引的候选集合求交集，然后根据到查询数据的距离排序。再如，可对每个索引的候选集合根据到查询数据的距离排序，计算加权后的分数并再次排序。

需要说明的是，样例图像可以是用户提供的样例图像或者从待查询视频帧图像序列中获取的行人图像。样例图像可以是行人图像的一部分，即行人的头肩、上半身、左半身或右半身等，本发明在此不作限定。

对于第一行人的文字描述的语义特征进行检索时，根据第一行人的语义特征，采用查表的方式搜索每个表格单元中语义特征的数值描述部分，当所述语义特征匹配时，取出对应的行人标识集合并输出。

需要说明的是，文字描述可以是用户对行人的文字描述。

上述图2所示的方法步骤具体的可以由图1所示的计算机设备实现。示例的，步骤201所述的从待分析的视频帧中获取行人图像序列集合，以及其他202等方法步骤可以由处理器101来实现。

具体的，如图3所示，步骤202所述的针对每个行人图像序列，根据多实例特征提取算法获取多实例行人图像还可以包括以下详细步骤：

步骤2021、对行人图像序列包括的每幅行人图像中的行人的朝向进行估计。

具体的，可以根据朝向估计算法对行人图像序列中的每幅行人图像中的行人的朝向进行估计，行人的朝向可以是将360度均匀划分成的N段。N＝1时，表示不划分行人的朝向，N＝2时，表示将行人的朝向划分为正面和背面，N＝4时，表示将行人的朝向划分为正面、左侧面、右侧面和背面，N＝8时，表示将行人的朝向划分为东、南、西、北、东北、东南、西北和西南。本发明实施例假设N＝4。

朝向估计算法对行人图像提取梯度直方图特征：

(1)将行人图像的尺寸归一化为高128*宽64，然后，将行人图像划分为8行4列，即32个高16*宽16的局部区块；

(2)对每块局部区块中的每个像素计算梯度方向(0～360°)，将梯度方向均匀量化到8个单元中，以统计每块局部区块的梯度方向直方图；

(3)对每个像素点的梯度方向用周围邻域像素的平均值进行平滑；

(4)统计每块局部区块的梯度直方图，并将梯度直方图归一化，使得梯度直方图像素值的和为1；

(5)将每块局部区块的梯度直方图拼接成一个8*4*8的直方图，该直方图即梯度直方图特征。

朝向估计算法对提取的梯度直方图特征进行朝向的分类：

(6)将梯度直方图特征作为训练数据集，对训练数据集标记四种朝向，用梯度直方图特征特征和朝向训练支持向量机(英文全称：Support Vector Machine，英文简称：SVM)，生成分类器；

(7)对待估计的行人图像提取梯度直方图特征，并输入到分类器中，分类器输出朝向和置信度。当行人朝向估计结果的置信度较低时，将行人同时分配到次优的朝向。

步骤2022、按照行人的朝向对行人图像序列包括的每幅行人图像进行分类。

按照行人的朝向将行人图像序列包括的每幅行人图像分为N类，每类朝向的每个行人图像对应一个朝向。

步骤2023、对每类朝向的每个行人图像提取局部区块特征。

将一个行人图像划分为m*n的局部区块，对每个局部区块提取梯度直方图特征，然后将所有的局部区块的梯度直方图特征联在一起构成局部区块特征。具体的可以采用朝向估计算法对行人图像提取梯度直方图特征的方法提取局部区块特征。

步骤2024、根据自适应聚类算法从每类朝向的行人图像的局部区块特征中获取多实例行人图像。

自适应聚类算法指的是可以自适应地确定聚类数目的算法。本发明实施例以谱聚类为例。谱聚类的输入为特征之间的相似度矩阵M，M的第i行第j列的元素

表示特征x_i和特征x_j之间的相似度。谱聚类算法输出C个聚类中心和行人图像特征所属的类别。在每类中选取离聚类中心最近的特征对应的行人图像作为代表图像，代表图像的集合即为输出的多实例行人图像。

进一步的，如图4所示，基于步骤204构建高维索引时，步骤204a还可以包括感兴趣区域的感兴趣区域特征，所述感兴趣区域为根据固定提取方式或随机提取方式获取的区域，其中，所述感兴趣区域特征为低层特征或语义特征。

对于行人的感兴趣区域特征，感兴趣区域可采用固定提取方式或者随机提取方式得到。采用固定提取方式即对行人图像划分网格，每个网格即为一个感兴趣区域。在检索时，可以由用户指定网格位置进行检索。采用随机提取方式生成感兴趣区域的方法，首先对包含感兴趣区域的行人图像进行标注，然后提取感兴趣区域的低层特征作为训练的正样本数据。随机选择不包含感兴趣区域的图像作为负样本数据，正样本和负样本数据用来训练生成检测器。对待分析的行人图像用检测器进行滑动窗口检测，输出即为感兴趣区域。获取感兴趣区域后，对感兴趣区域提取低层特征或者语义特征作为高维索引的输入。

如图5所示，朝向1的索引下存储了所有朝向为1的行人的低层特征、语义特征和感兴趣区域特征，低层特征、语义特征和感兴趣区域特征分别根据特征的种类建立索引，例如，有n种低层特征就建立n个低层特征索引，其他朝向可类比。

需要说明的是，对于构建低层特征的索引，可以对低层特征划分数据空间，划分方法可采用聚类、局部敏感哈希算法等，相似的特征被划分在相同的单元下。

本发明实施例以局部敏感哈希算法为例，说明数据空间的划分方法。令x特征表示元素取实数的d维向量，局部敏感哈希函数定义如下:

其中ai是一个随机向量，w是划分宽度，bi是随机变量。

局部敏感哈希算法将多个参数不同的h函数级联起来，形成级联函数g：

g(p)＝(h₁(p),...,h_t(p))

每个数据点p按照g_j(p),1≤j≤L的值存储在各哈希表中，从而实现相似的数据存储在同一哈希表项中，不同的数据存储在不同的表项中。

对划分结果进行存储，可以选用倒排文档、局部敏感哈希表等数据结构进行存储。

本发明实施例以局部敏感哈希表为例进行说明。局部敏感哈希基于级联函数来构造哈希表，并生成多个级联函数来建立多个哈希表。每个数据点p按照g(p)的值存储在各哈希表中，L越大则真正最近邻被访问到的概率越高，从而保证了查询精度。

对于构建语义特征的索引，建立表格，每个表格单元包含语义特征的数值描述和行人标识集合两部分。

对于构建感兴趣区域的索引，感兴趣区域特征可以为低层特征或者语义特征，可以参考构建低层特征的索引或构建语义特征的索引的方法构建感兴趣区域的索引。

进一步的，基于步骤205，步骤205a还可以根据第一行人的样例图像的低层特征、文字描述的语义特征和感兴趣区域的感兴趣区域特征中至少一个检索高维索引，得到检索结果。

对于第一行人的感兴趣区域的感兴趣区域特征进行检索时，当感兴趣区域特征是以低层特征表示时，可以参考根据检索低层特征的方式进行检索；当感兴趣区域特征是以语义特征表示时，可以参考根据检索语义特征的方式进行检索。

可选的，还可将查询输入的感兴趣区域特征与对行人图像序列提取的感兴趣区域特征进行顺序比对，并按相似度从高到低排序。所述行人图像序列可以是所有库图像也可以是由其他查询方式得到的检索结果子集。

进一步的，在根据第一行人的样例图像的低层特征、文字描述的语义特征和感兴趣区域的感兴趣区域特征中至少一个检索高维索引，得到检索结果，如步骤205a之前，所述方法还包括步骤206-208：

步骤206、从第一行人的样例图像中提取低层特征。

具体的可以参考步骤203中提取低层特征的方法所述，在此不再赘述。

步骤207、从第一行人的文字描述中提取语义特征。

以用户对行人衣服的主颜色描述为例，通过事先定义好的主颜色文字描述与语义特征数值描述之间的对应关系，将文字描述转换为语义特征，从而实现基于主颜色文字描述的行人检索。

步骤208、从第一行人的感兴趣区域中提取感兴趣区域特征。

具体的可以参考构建高维索引时提取感兴趣区域特征的方法所述，在此不再赘述。

这样一来，首先，从待分析的视频帧中获取包括多个行人的行人图像序列的行人图像序列集合，然后，针对每个行人图像序列，根据多实例特征提取算法获取多实例行人图像，而所述多实例行人图像为根据行人图像序列包括的行人图像的局部区块特征获取的行人图像的集合，根据每个行人的多实例行人图像获取所述行人的低层特征、语义特征和感兴趣区域特征来构建高维索引，以便于从需要检索的行人的样例图像获取低层特征、文字描述获取语义特征和感兴趣区域获取感兴趣区域特征中至少一个检索高维索引，得到检索结果。从而能够针对行人的多种特征建立高维索引，根据行人的多种特征联合检索，有效提高检索精度。

实施例3

本发明实施例提供一种行人检索装置30，如图6所示，包括：

行人图像序列获取模块301，用于从待分析的视频帧中获取行人图像序列集合，所述行人图像序列集合包括多个行人的行人图像序列，所述行人图像序列表示一个行人的多幅行人图像，所述行人图像包括行人的视频帧图像和用来表示行人位置的掩码模板；

多实例特征提取模块302，用于针对每个行人图像序列，根据多实例特征提取算法获取多实例行人图像，所述多实例行人图像为根据行人图像序列包括的行人图像的局部区块特征获取的行人图像的集合；

所述多实例特征提取模块302，还用于根据每个行人的多实例行人图像获取所述行人的低层特征和语义特征；

高维索引模块303，用于根据每个所述行人的低层特征和语义特征构建高维索引；

所述高维索引模块303，还用于根据第一行人的样例图像的低层特征和文字描述的语义特征中至少一个检索高维索引，得到检索结果。

进一步的，所述行人检索装置30还包括低层特征提取模块304，用于从第一行人的样例图像中提取低层特征、语义特征提取模块305，用于从第一行人的文字描述中提取语义特征和感兴趣区域特征提取模块306，用于从第一行人的感兴趣区域中提取感兴趣区域特征。

在本实施例中，行人检索装置30是以功能模块的形式来呈现。这里的“模块”可以指特定应用集成电路(英文全称：application-specific integrated circuit，英文简称：ASIC)，电路，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。在一个简单的实施例中，本领域的技术人员可以想到行人检索装置30可以采用图6所示的形式。行人图像序列获取模块301,多实例特征提取模块302和高维索引模块303可以通过图1的计算机设备来实现，具体的，行人图像序列获取模块301,多实例特征提取模块302和高维索引模块303可以由处理器101实现。

本发明实施例还提供了一种计算机存储介质，用于储存为上述图6所示的行人检索装置所用的计算机软件指令，其包含用于执行上述方法实施例所设计的程序。通过执行存储的程序，可以实现行人的检索。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random-Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种行人检索的方法，其特征在于，应用于行人检索装置，包括：

从待分析的视频帧中获取行人图像序列集合，所述行人图像序列集合包括多个行人的行人图像序列，所述行人图像序列表示一个行人的多幅行人图像，所述行人图像包括行人的视频帧图像和用来表示行人位置的掩码模板；

针对每个行人图像序列，根据多实例特征提取算法获取多实例行人图像，所述多实例行人图像为根据行人图像序列包括的行人图像的局部区块特征获取的行人图像的集合；

根据每个行人的多实例行人图像获取所述行人的低层特征和语义特征；

根据每个所述行人的低层特征和语义特征构建高维索引；

根据第一行人的样例图像的低层特征和文字描述的语义特征中至少一个检索高维索引，得到检索结果；

其中，所述根据每个行人的多实例行人图像获取所述行人的低层特征和语义特征包括：

根据每类朝向的每个行人图像的多实例行人图像提取低层特征，所述低层特征用于描述行人的颜色、纹理以及空间分布的表观特征；

根据每类朝向的每个行人图像的多实例行人图像提取的低层特征生成语义特征。

2.根据权利要求1所述的方法，其特征在于，所述针对每个行人图像序列，根据多实例特征提取算法获取多实例行人图像包括：

对行人图像序列包括的每幅行人图像中的行人的朝向进行估计；

按照行人的朝向对行人图像序列包括的每幅行人图像进行分类；

对每类朝向的每个行人图像提取局部区块特征；

根据自适应聚类算法从每类朝向的行人图像的局部区块特征中获取多实例行人图像。

3.根据权利要求1所述的方法，其特征在于，所述根据每个所述行人的低层特征和语义特征构建高维索引包括：

将相似的低层特征划分到相同的数据单元，以数据结构的方式存储数据单元；

以表格的方式存储语义特征。

4.根据权利要求1-3任一项权利要求所述的方法，其特征在于，所述高维索引还包括感兴趣区域的感兴趣区域特征，所述感兴趣区域为根据固定提取方式或随机提取方式获取的区域，其中，所述感兴趣区域特征为低层特征或语义特征。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

根据第一行人的样例图像的低层特征、文字描述的语义特征和感兴趣区域的感兴趣区域特征中至少一个检索高维索引，得到检索结果。

6.一种行人检索装置，其特征在于，包括：

行人图像序列获取模块，用于从待分析的视频帧中获取行人图像序列集合，所述行人图像序列集合包括多个行人的行人图像序列，所述行人图像序列表示一个行人的多幅行人图像，所述行人图像包括行人的视频帧图像和用来表示行人位置的掩码模板；

多实例特征提取模块，用于针对每个行人图像序列，根据多实例特征提取算法获取多实例行人图像，所述多实例行人图像为根据行人图像序列包括的行人图像的局部区块特征获取的行人图像的集合；

所述多实例特征提取模块，还用于根据每个行人的多实例行人图像获取所述行人的低层特征和语义特征；

高维索引模块，用于根据每个所述行人的低层特征和语义特征构建高维索引；

所述高维索引模块，还用于根据第一行人的样例图像的低层特征和文字描述的语义特征中至少一个检索高维索引，得到检索结果；

其中，所述多实例特征提取模块具体用于：

7.根据权利要求6所述的行人检索装置，其特征在于，所述多实例特征提取模块具体用于：

对每类朝向的每个行人图像提取局部区块特征；

8.根据权利要求6所述的行人检索装置，其特征在于，所述高维索引模块具体用于：

以表格的方式存储语义特征。

9.根据权利要求6-8任一项权利要求所述的行人检索装置，其特征在于，所述高维索引还包括感兴趣区域的感兴趣区域特征，所述感兴趣区域为根据固定提取方式或随机提取方式获取的区域，其中，所述感兴趣区域特征为低层特征或语义特征。

10.根据权利要求9所述的行人检索装置，其特征在于，所述高维索引模块，还用于：根据第一行人的样例图像的低层特征、文字描述的语义特征和感兴趣区域的感兴趣区域特征中至少一个检索高维索引，得到检索结果。