CN110750671B

CN110750671B - 一种基于海量非结构化特征的行人检索方法及装置

Info

Publication number: CN110750671B
Application number: CN201910839224.4A
Authority: CN
Inventors: 周永霞; 黄晓峰; 殷海兵; 贾惠柱
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2022-09-02
Anticipated expiration: 2039-09-05
Also published as: CN110750671A

Abstract

本发明涉及计算机技术领域，特别涉及一种基于海量非结构化特征的行人检索方法及装置。该方法包括：对行人图片提取多种非结构化特征，包括步态、行人、人脸的非结构化特征，然后在非结构化特征库中检索得到中间结果，再对中间结果进行融合重排，得到最终的检索结果。其中步态非结构化特征采用了基于三维骨架及其时序信息的表示方法，通过骨架对齐和骨架序列裁剪，可解决部分被遮挡、身上有重物等情况下的骨架关键点缺失与骨架变形问题，可提高步态识别的准确率；对特征库采用降维与聚类方法建立索引，以减少检索阶段的计算量。本发明在有限的算力下，可以快速得到准确的检索结果。

Description

一种基于海量非结构化特征的行人检索方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种基于海量非结构化特征的行人检索方法及装置。

背景技术

在安防领域，经常需要在海量图片与视频中，快速检索行人目标，找出该目标在图库和视频库中出现的时间、地点以及当时的图像和视频。检索之前，须事先采集摄像机中拍到的所有行人的特征，并放在特征库中。在检索时，目标特征与特征库里的行人特征进行逐一比对，输出最相似的若干行人。目前普遍采用单一特征的检索方法，有诸多的不足，比如：街道上大多数摄像机拍到的人脸分辨率很小，导致单一的人脸识别准确率很低；步态算法目前还停留在提取二维特征，而且最终的特征维度非常高，一般要一万多维，数据量非常大，大大影响检索速度，在跨摄像机场景下，其准确率并不高；单一的行人重识别 (ReID)算法可以找出跨摄像机场景下的行人，但只限于该人没有换衣服的情况，换衣服后，就无法找出目标了。原始非结构化特征往往维度较高，检索时计算量非常大，检索速度就会很慢。如何在有限的算力下，在十亿数量级的特征库中，快速、准确地得到检索结果，这是本专利要解决的问题。

发明内容

本发明实施例提供了一种基于海量非结构化特征的行人检索方法及装置，在有限的算力下，在十亿数量级的特征库中，可快速、准确地得到检索结果，而且能找出换衣服、部分被遮挡、身上有重物等情况下的行人目标。

根据本发明实施例的第一方面，提出了一种基于海量非结构化特征的行人检索方法，包括如下步骤：

S1：对行人图片提取多种非结构化特征；

S2：在多种非结构化特征库中检索，得到中间结果；

S3：对中间结果进行融合重排，得到最终的检索结果。

所述多种非结构化特征，包括：步态非结构化特征、行人非结构化特征、人脸这非结构化特征。

所述步态非结构化特征的提取算法步骤包括：

S2.a.1：对视频中每一帧的行人图片，进行深度估计，得到深度信息；

S2.a.2：提取三维骨架，得到骨架上N个关键点的三维坐标，N为正整数；

S2.a.3：把关键点的坐标变换到人体局部坐标系；

S2.a.4：与标准骨架进行比较，修正骨架坐标，消除由于身上有重物导致的骨架变形和由于遮挡而导致的关键点缺失；

S2.a.5：对骨架坐标序列进行裁剪，与标准骨架序列进行比较，按照时间顺序，选择最相似的K帧骨架坐标序列，K为正整数；

S2.a.6：把K帧骨架坐标序列拼接起来，作为步态非结构化特征的向量表达，该向量维度为：K*N*3。

所述非结构化特征库，采用降维与聚类方法建立索引；对于高维特征，先降维再聚类；其它特征，不降维只做聚类，以聚类中心为索引；检索时，计算待查找的目标在哪个聚类中心，然后到相应的聚类中心附近搜索。

所述融合重排，其步骤包括：

S3.1：同时在步态、人体、人脸3个特征库中进行检索，得到3种中间检索结果；

S3.2：计算3种中间检索结果之间的交集，按照在3种中间检索结果中出现的次数，从高到低排序，出现次数最多的排在最前面。如果出现次数相同，则按照相似度从高到低排序。

一种基于海量非结构化特征的行人检索装置，包括至少一个处理器、以及至少一个存储器，其中，所述存储器存储有计算机程序和非结构化特征库，当所述程序被所述处理器执行时，使得所述处理器执行上述方法的步骤。

一种计算机可读介质，其存储有可由计算装置执行的计算机程序，当所述程序在计算装置上运行时，使得所述计算装置执行上述方法的步骤。

本发明实施例提供的技术方案可以包括以下有益效果：利用多种非结构化特征和融合重排算法，提高检索准确率。对特征建立索引，减少计算量，提高检索速度，实现在单台服务器上十亿级非结构化特征量的秒级检索响应，多台服务器可实现百亿级底库的秒级检索。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本发明提供了一种基于海量非结构化特征的行人检索方法流程图；

图2是多类特征组合检索流程图；

图3是本发明提供了一种基于海量结构化与非结构化特征的行人检索装置示意图。

具体实施方式

实施例一

一种基于海量非结构化特征的行人检索方法，包括如下步骤：S1：对行人图片提取多种非结构化特征；S2：在多种非结构化特征库中检索，得到中间结果；S3：对中间结果进行融合重排，得到最终的检索结果。

非结构化特征包括：步态、行人、人脸这三种非结构化特征，非结构化特征指的是用高维向量表示的特征，步态与行人、人脸非结构化特征的维度可以是不一样的。

步态非结构化特征的提取算法步骤如下：S2.a.1：对视频中每一帧的行人图片，进行深度估计，得到深度信息；S2.a.2：提取三维骨架，得到骨架上N(＝14) 个关键点的三维坐标。S2.a.3：把关键点的坐标变换到人体局部坐标系，人体局部坐标系可以用人体中心点作为原点；S2.a.4：骨架对齐：与标准骨架进行比较，修正骨架坐标，消除由于身上有重物导致的骨架变形和由于遮挡而导致的关键点缺失。标准骨架是事先训练得到的骨架坐标序列，在标准骨架序列中找到最相似的一个标注骨架坐标，然后进行修正，比如填补缺少的关键点坐标、拉直部分关键点连线等；S2.a.5：对骨架坐标序列进行裁剪：与标准骨架序列进行比较，按照时间顺序，选择最相似的K(＝20)帧骨架坐标序列；S2.a.6：把K帧骨架坐标序列拼接起来，作为步态非结构化特征的向量表达，该向量维度为： K*N*3＝840。

特征库采用PCA降维与K-means聚类方法建立索引，可减少检索阶段的计算量，加快检索速度。对于高维特征，先降维再聚类；其它特征，可不降维只做聚类，聚类中心就是索引。检索时，先计算待查找的目标在哪个聚类中心，然后到相应的聚类中心附近去搜索。比如人脸特征原始维度为512，数据量不大，可不降维，只用K-means算法聚类为若干个中心，每个聚类中心都有一个桶，属于这个聚类中心的人脸特征就放在这个桶里。检索时，先计算目标在哪个桶，然后只要到相应的桶里去比对特征即可，大大减少了比对的数量，这个桶就是索引。行人ReID特征原始维度为2048维，数据量较大，可以先降维到512维，然后再聚类。步态特征原始维度为840维，可以直接聚类建立索引。

融合重排过程，如图2所示，其步骤包括：S3.1：同时在步态、行人、人脸3个特征库中进行检索，得到3种中间检索结果。如果行人背对摄像机，则没有人脸特征，就只有2种中间检索结果，即步态与行人；S3.2：计算中间检索结果之间的交集，按照在3种中间检索结果中出现的次数，从高到低排序，出现次数最多的排在最前面。如果出现次数相同，则按照相似度从高到低排序。在特征库中检索时，两个特征向量之间的距离如果采用余弦距离，可以直接把余弦距离作为相似度，值越大表示两个特征越相似，该特征表示的行人就越可能是同一个人。

实施例二

如图1所示，本发明提供了一种基于海量非结构化特征的行人检索方法，包括如下步骤：S1：对行人图片提取多种非结构化特征；S2：在多种非结构化特征库中检索，得到中间结果；S3：对中间结果进行融合重排，得到最终的检索结果。

步态非结构化特征的提取算法步骤如下：S2.a.1：对视频中每一帧的行人图片，进行深度估计，得到深度信息；S2.a.2：提取三维骨架，得到骨架上N(＝18) 个关键点的三维坐标。S2.a.3：把关键点的坐标变换到人体局部坐标系，人体局部坐标系可以用人体中心点作为原点；S2.a.4：骨架对齐：与标准骨架进行比较，修正骨架坐标，消除由于身上有重物导致的骨架变形和由于遮挡而导致的关键点缺失。标准骨架是事先训练得到的骨架坐标序列，在标准骨架序列中找到最相似的一个标注骨架坐标，然后进行修正，比如填补缺少的关键点坐标、拉直部分关键点连线等；S2.a.5：对骨架坐标序列进行裁剪：与标准骨架序列进行比较，按照时间顺序，选择最相似的K(＝20)帧骨架坐标序列，也可以裁剪出多个骨架坐标序列，然后取平均，可以提高骨架坐标的准确性；S2.a.6：把K帧骨架坐标序列拼接起来，作为步态非结构化特征的向量表达，该向量维度为： K*N*3＝1080。

特征库采用PCA降维与K-means聚类方法建立索引，可减少检索阶段的计算量，加快检索速度。对于高维特征，先降维再聚类；其它特征，可不降维只做聚类，聚类中心就是索引。检索时，先计算待查找的目标在哪个聚类中心，然后到相应的聚类中心附近去搜索。比如人脸特征原始维度为512，数据量不大，可不降维，只用K-means算法聚类为若干个中心，每个聚类中心都有一个桶，属于这个聚类中心的人脸特征就放在这个桶里。检索时，先计算目标在哪个桶，然后只要到相应的桶里去比对特征即可，大大减少了比对的数量，这个桶就是索引。行人ReID特征原始维度为2048维，数据量较大，可以先降维到 512维，然后再聚类。步态特征原始维度为1080维，可以直接聚类建立索引，也可以降维后再聚类。

在一些可能的实施方式中，根据本发明的计算装置可以包括至少一个处理器、以及至少一个存储器。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本说明书上述描述的根据本发明各种示例性实施方式的资源展示方法中的步骤。

下面参照图3来描述根据本发明的这种实施方式的一种基于海量结构化与非结构化特征的行人检索装置90。图3显示的检索装置90仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，检索装置90以通用计算设备的形式表现。检索装置90的组件可以包括但不限于：上述至少一个处理器91、上述至少一个存储器92、连接不同系统组件(包括存储器92和处理器91)的总线93。

总线93表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器92可以包括易失性存储器形式的可读介质，例如随机存取存储器 (RAM)921和/或高速缓存存储器922，还可以进一步包括只读存储器(ROM) 923。

存储器92还可以包括具有一组(至少一个)程序模块924的程序/实用工具925，这样的程序模块924包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

检索装置90也可以与一个或多个外部设备94(例如键盘、指向设备等) 通信，还可与一个或者多个使得用户能与计算装置90交互的设备通信，和/或与使得该检索装置90能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口95 进行。并且，检索装置90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器96通过总线93与用于检索装置90的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID 系统、磁带驱动器以及数据备份存储系统等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于海量非结构化特征的行人检索方法，其特征在于，包括如下步骤：

S1：对行人图片提取多种非结构化特征；所述多种非结构化特征，包括：

步态非结构化特征、行人非结构化特征、人脸这非结构化特征；

S2：在多种非结构化特征库中检索，得到中间结果；所述步态非结构化特征的提取算法步骤包括：

S2.a.3：把关键点的坐标变换到人体局部坐标系；

S2.a.6：把K帧骨架坐标序列拼接起来，作为步态非结构化特征的向量表达，该向量维度为：K*N*3；

S3：对中间结果进行融合重排，得到最终的检索结果。

2.如权利要求1所述的方法，其特征在于，所述非结构化特征库，采用降维与聚类方法建立索引；对于高维特征，先降维再聚类；其它特征，不降维只做聚类，以聚类中心为索引；检索时，计算待查找的目标在哪个聚类中心，然后到相应的聚类中心附近搜索。

3.如权利要求1所述的方法，其特征在于，所述融合重排，其步骤包括：

S3.2：计算3种中间检索结果之间的交集，按照在3种中间检索结果中出现的次数，从高到低排序，出现次数最多的排在最前面，如果出现次数相同，则按照相似度从高到低排序。

4.一种基于海量非结构化特征的行人检索装置，其特征在于，包括至少一个处理器、以及至少一个存储器，其中，所述存储器存储有计算机程序和非结构化特征库，当所述程序被所述处理器执行时，使得所述处理器执行权利要求1～3任一所述方法的步骤。

5.一种计算机可读介质，其特征在于，其存储有可由计算装置执行的计算机程序，当所述程序在计算装置上运行时，使得所述计算装置执行权利要求1～3任一所述方法的步骤。