CN109416689B

CN109416689B - 海量特征向量数据的相似检索方法及设备、存储介质

Info

Publication number: CN109416689B
Application number: CN201880002039.3A
Authority: CN
Inventors: 黄龑; 王治; 赖庆峰
Original assignee: Shenzhen ZNV Technology Co Ltd
Current assignee: Shenzhen ZNV Technology Co Ltd
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2021-08-03
Anticipated expiration: 2038-01-16
Also published as: WO2019140548A1; CN109416689A

Abstract

本发明公开了一种海量特征向量数据的相似检索方法及设备、计算机可读存储介质，该方法包括步骤：根据待检索的特征向量，分别进行计算得到粗分类哈希编码后的粗分类标识、多索引哈希编码后的二进制编码集合、以及特征向量集合；根据所述粗分类标识和所述二进制编码集合进行联合搜索，得到联合搜索结果集；根据所述特征向量集合对所述联合搜索结果集进行逐层过滤，得到过滤后的结果集。本发明通过粗分类标识、二进制编码集合以及特征向量集合，对海量特征向量数据进行相似检索；解决了现有技术中海量特征数据的检索效率低下、且无法保证查全率和查准率的问题。

Description

海量特征向量数据的相似检索方法及设备、存储介质

技术领域

本发明涉及非结构化数据搜索技术领域，尤其涉及一种海量特征向量数据的相似检索方法及设备、计算机可读存储介质。

背景技术

随着安防监控数据的急剧增长，以及图像、视频、语音等人工智能技术的快速发展，如何在海量的数据中快速查找到相似的图像、视频、语音等非结构化数据，已成为一个迫切的需求。

对于图像、视频、语音等非结构化数据，目的是提取其中的特征向量，输出与其相似的图像、视频、语音。海量特征向量数据的检索，要求算法对数据规模具有很好的可扩展性；此外，检索效率、查全率、查准率等是评价检索性能的通用指标，即不但要求检索效率高，还要保证检索的准确性。

对于海量特征向量数据检索问题，如果直接使用传统的特征向量检索方法，针对高维度特征向量需要线性遍历整个数据库来寻找最相似的特征向量，查询效率低下且不具有可扩展性。为了解决该问题，可采用一些类似索引的技术来加快查找过程，通常这类技术称为最近邻查找(Nearest Neighbor)，例如Kd-tree(Kd树)；或近似最近邻查找(Approximate Nearest Neighbor)，例如Kd-tree with BBF(Best Bin First)、Randomized Kd-trees、Hierarchical K-means Tree。但这些方法都不能很好的兼顾检索效率及查询率、查准率等指标。

因此，如何快速高效地进行海量非结构化数据检索，且保证查全率和查准率，是目前面临的技术难题。

发明内容

本发明的主要目的在于提出一种海量特征向量数据的相似检索方法及设备、计算机可读存储介质，旨在解决现有技术中海量特征数据的检索效率低下、且无法保证查全率和查准率的问题。

为实现上述目的，本发明实施例第一方面提供一种海量特征向量数据的相似检索方法，所述方法包括步骤：

根据待检索的特征向量，分别进行计算得到粗分类哈希编码后的粗分类标识、多索引哈希编码后的二进制编码集合、以及特征向量集合；

根据所述粗分类标识和所述二进制编码集合进行联合搜索，得到联合搜索结果集；

根据所述特征向量集合对所述联合搜索结果集进行逐层过滤，得到过滤后的结果集。

此外，为实现上述目的，本发明实施例第二方面提供一种海量特征向量数据的相似检索设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的海量特征向量数据的相似检索程序，所述海量特征向量数据的相似检索程序被所述处理器执行时实现上述的海量特征向量数据的相似检索方法的步骤。

再者，为实现上述目的，本发明实施例第三方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有海量特征向量数据的相似检索程序，所述海量特征向量数据的相似检索程序被处理器执行时实现上述的海量特征向量数据的相似检索方法的步骤。

本发明实施例提供的海量特征向量数据的相似检索方法及设备、计算机可读存储介质，通过粗分类标识、二进制编码集合以及特征向量集合，对海量特征向量数据进行相似检索；解决了现有技术中海量特征数据的检索效率低下、且无法保证查全率和查准率的问题。

附图说明

图1为本发明第一实施例的海量特征向量数据的相似检索方法流程示意图；

图2为本发明第二实施例的海量特征向量数据的相似检索设备结构示意图；

图3为本发明实施例的多索引哈希表结构示意图；

图4为本发明实施例的降维后的特征向量集合结构示意图；

图5为本发明实施例的人脸特征检索系统架构结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现在将参考附图描述实现本发明各个实施例的。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

第一实施例

如图1所示，本发明第一实施例提供一种海量特征向量数据的相似检索方法，该方法包括步骤：

S11、根据待检索的特征向量，分别进行计算得到粗分类哈希编码后的粗分类标识、多索引哈希编码后的二进制编码集合、以及特征向量集合。

在本实施例中，待检索的特征向量是从图像、视频、语音等非结构化数据中提取出来的向量。

在一种实施方式中，通过以下方式计算得到粗分类哈希编码后的粗分类标识(ID)：

计算所述待检索的特征向量与log₂S个粗分类哈希函数的内积，其中S为分类标签个数；

在该实施方式中，S的取值范围可以为小于等于16。

将计算得到的内积进行二进制编码，得到长度为log₂S的粗分类标识。

在该实施方式中，所述将计算得到的内积进行二进制编码包括步骤：若计算得到的内积大于预设值，则记为1；否则记为0。

最终得到的粗分类标识形如“1011…001”。可以想象得到的，反之也是可行的。即若计算得到的内积大于预设值，则记为0；否则记为1。

在一种实施方式中，通过以下方式计算得到多索引哈希编码后的二进制编码集合：

选取L个多索引哈希表中的一个多索引哈希表，计算所述待检索的特征向量与选取的多索引哈希表中的K个多索引哈希函数的内积；

作为示例地，多索引哈希表的结构可参考图3所示。如图3所示，E1、E2……EL为索引，其中{fp21,fp22,……,fp2k}为索引E3对应的一个哈希表，该哈希表中的哈希函数fp21,fp22,……,fp2k为正交基哈希函数。

将计算得到的内积进行二进制编码，得到长度为K的二进制编码E₁；

最终得到的二进制编码形如“1011…001”。可以想象得到的，反之也是可行的。即若计算得到的内积大于预设值，则记为0；否则记为1。

重复前述步骤，得到L个二进制编码集合{E₁,E₂,……,E_L}。

在该实施方式中，所述L的取值范围为8-32，所述K的取值范围为16-D，其中D为所述待检索的特征向量的维数。

在一种实施方式中，通过以下方式计算得到特征向量集合：

根据金字塔降维矩阵集合M_RD{M₁,M₂,……,M_P-1}，对所述待检索的特征向量进行降维计算，得到P个特征向量集合F_RD{F₁,F₂,……,F_P}；其中F_P为所述待检索的特征向量。

在该实施方式中，金字塔降维层数为P，每层降维的维数为D_i，其中P＝Math.Ceil(log_TD)，T为每次降维的倍数，取值可以为4、8或16，D_i＝D_i+1/T，D_p＝D。

作为示例地，请参考图4所示。假设待检索的特征向量(原始特征)为256维特征向量{-0.0264515,-0.0303926,……,0.0067627}，金字塔降维层数为3层，每层维数为{4,32,256}，训练4维特征和32维特征的降维矩阵，得到的特征向量集合可如图4所示。

在一种实施方式中，所述金字塔降维矩阵集合M_RD{M₁,M₂,……,M_P-1}通过以下方式进行更新：

定期根据特征向量数据对所述金字塔降维矩阵集合M_RD{M₁,M₂,……,M_P-1}进行迭代计算，得到更新的金字塔降维矩阵集合M_RD{M₁,M₂,……,M_P-1}。

在该实施方式中，不断根据特征向量数据迭代计算并更新降维矩阵，可以减少降维后精度损失，提高查全率及查准率，并适应多种场景。

S12、根据所述粗分类标识和所述二进制编码集合进行联合搜索，得到联合搜索结果集。

作为示例地，假设粗分类标识为TID，二进制编码集合为{Q₁,Q₂,……,Q_L}，则联合搜索条件可以为“TID AND(Q₁ORQ₂,……,OR Q_L)”。

S13、根据所述特征向量集合对所述联合搜索结果集进行逐层过滤，得到过滤后的结果集。

在一种实施方式中，所述根据所述特征向量集合对所述联合搜索结果集进行逐层过滤，得到过滤后的结果集包括步骤：

选取所述特征向量集合F_RD{F₁,F₂,……,F_P}中的低维特征向量F₁，与所述联合搜索结果集遍历计算相似度并根据相似度阈值进行过滤；

重复前述步骤对所述联合搜索结果集进行逐层过滤，得到过滤后的结果集。

在该实施方式中，通过依次选取低维特征向量，对所述联合搜索结果集进行逐层过滤，可得到精准的结果集。

为了更好地阐述本实施例，以下结合图5对人脸特征向量的检索过程进行说明：

假设提取的人脸特征向量为256维向量。如图5所示，人脸特征检索系统包括前端监控设备、人脸检索服务器以及分布式搜索引擎。

1)、预处理阶段

利用局部敏感哈希(Locality-Sensitive Hashing，LSH)技术，选取128个1*256的正交基哈希函数族，并从中选取4个哈希函数作为粗分类哈希表的哈希函数，得到粗分类哈希表。

从正交基哈希函数族中，选取16个哈希表作为多索引哈希表，其中每个哈希表有32个哈希函数。

确定256维的金字塔降维层数为3层，每层维数为{4,32,256}，使用100万样本集训练4维特征和32维特征的降维矩阵，得到降维矩阵集合。

2)、对人脸图片提取的特征向量创建索引

对待入库人脸图片从人脸识别服务器提取特征向量。

根据提取的特征向量，计算得到粗分类哈希编码后的粗分类标识TID。

从16个多索引哈希表中选取一个多索引哈希表，计算提取的特征向量与选取的多索引哈希表中的32个哈希函数的内积，内积大于0的记为1；否则记为0，得到长度为32的二进制编码E1，形如“1011…001”。16个多索引哈希表即可得到16个二进制编码集合{E₁,E₂,……,E₁₆}。

对256维特征向量分别与32维的降维矩阵和4维的降维矩阵进行计算，得到32维的特征和4维的特征向量。

对TID和16个二进制编码集合{E₁,E₂,……,E₁₆}分别建立倒排索引，写入搜索引擎中，并在搜索引擎中存储待入库人脸图片的{4,32,256}维特征向量。

继续对下一张待入库人脸图片建立倒排索引。

3)对目标人脸进行检索

对待检索人脸图片从人脸识别服务器提取特征向量。

按照前述方式，得到粗分类标识TID、16个二进制编码集合{E₁,E₂,……,E₁₆}、以及{4,32,256}维特征向量；

对粗分类标识TID和16个二进制编码集合{E₁,E₂,……,E₁₆}进行联合搜索，联合搜索条件可以为“TID AND(E₁ OR E₂,……,OR E₁₆)”，在搜索引擎中对已入库的人脸图片进行检索，得到一个较小的结果集。

再用待检索人脸图片的{4,32,256}维特征向量，与结果集中的特征向量进行遍历计算，按相似度逐层过滤，得到最终查准率和查全率较高的结果集。

4)、对已入库人脸的特征向量数据进行离线学习

每晚根据新入库的人脸特征向量数据对降维矩阵进行迭代计算，得到新的降维矩阵集合并保存，同时发送通知给搜索引擎；

搜索引擎接收到降维矩阵更新通知后，重新加载降维矩阵集合，并根据新的降维矩阵集合重新计算存储已入库数据的金字塔特征向量。

本发明实施例提供的海量特征向量数据的相似检索方法，通过粗分类标识、二进制编码集合以及特征向量集合，对海量特征向量数据进行相似检索；解决了现有技术中海量特征数据的检索效率低下、且无法保证查全率和查准率的问题。

第二实施例

参照图2，图2为本发明第三实施例提供的一种海量特征向量数据的相似检索设备，所述设备包括：存储器21、处理器22及存储在所述存储器21上并可在所述处理器22上运行的海量特征向量数据的相似检索程序，所述海量特征向量数据的相似检索程序被所述处理器22执行时，用于实现以下所述的海量特征向量数据的相似检索方法的步骤：

所述海量特征向量数据的相似检索程序被所述处理器22执行时，还用于实现以下所述的海量特征向量数据的相似检索方法的步骤：

重复前述步骤，得到L个二进制编码集合{E₁,E₂,……,E_L}。

所述L的取值范围为8-32，所述K的取值范围为16-D，其中D为所述待检索的特征向量的维数。

若计算得到的内积大于预设值，则记为1；否则记为0。

本发明实施例提供的海量特征向量数据的相似检索设备，通过粗分类标识、二进制编码集合以及特征向量集合，对海量特征向量数据进行相似检索；解决了现有技术中海量特征数据的检索效率低下、且无法保证查全率和查准率的问题。

第三实施例

本发明第三实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有海量特征向量数据的相似检索程序，所述海量特征向量数据的相似检索程序被处理器执行时实现第一实施例所述的海量特征向量数据的相似检索方法的步骤。

本发明实施例提供的计算机可读存储介质，通过粗分类标识、二进制编码集合以及特征向量集合，对海量特征向量数据进行相似检索；解决了现有技术中海量特征数据的检索效率低下、且无法保证查全率和查准率的问题。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

工业实用性：

本发明实施例提供的海量特征向量数据的相似检索方法及设备、计算机可读存储介质，通过粗分类标识、二进制编码集合以及特征向量集合，对海量特征向量数据进行相似检索；解决了现有技术中海量特征数据的检索效率低下、且无法保证查全率和查准率的问题。因此，具有工业实用性。

Claims

1.一种海量特征向量数据的相似检索方法，其特征在于，所述方法包括步骤：

根据所述特征向量集合对所述联合搜索结果集进行逐层过滤，得到过滤后的结果集；

其中，所述根据待检索的特征向量，计算得到粗分类哈希编码后的粗分类标识包括：

计算所述待检索的特征向量与log₂S个粗分类哈希函数的内积，其中S为分类标签个数；将计算得到的内积进行二进制编码，得到长度为log₂S的粗分类标识；

所述根据待检索的特征向量，计算得到多索引哈希编码后的二进制编码集合包括：

选取L个多索引哈希表中的一个多索引哈希表，计算所述待检索的特征向量与选取的多索引哈希表中的K个多索引哈希函数的内积；将计算得到的内积进行二进制编码，得到长度为K的二进制编码E₁；重复前述步骤，得到L个二进制编码集合{E₁，E₂，……，E_L}；

所述根据待检索的特征向量，计算得到特征向量集合包括：

根据金字塔降维矩阵集合M_RD{M₁，M₂，……，M_P-1}，对所述待检索的特征向量进行降维计算，得到P个特征向量集合F_RD{F₁，F₂，……，F_P}；其中F_P为所述待检索的特征向量。

2.根据权利要求1所述的一种海量特征向量数据的相似检索方法，其特征在于，所述L的取值范围为8-32，所述K的取值范围为16-D，其中D为所述待检索的特征向量的维数。

3.根据权利要求1所述的一种海量特征向量数据的相似检索方法，其特征在于，所述将计算得到的内积进行二进制编码包括步骤：

若计算得到的内积大于预设值，则记为1；否则记为0。

4.根据权利要求1所述的一种海量特征向量数据的相似检索方法，其特征在于，所述根据所述特征向量集合对所述联合搜索结果集进行逐层过滤，得到过滤后的结果集包括步骤：

选取所述特征向量集合F_RD{F₁，F₂，……，F_P}中的低维特征向量F₁，与所述联合搜索结果集遍历计算相似度并根据相似度阈值进行过滤；

5.根据权利要求1所述的一种海量特征向量数据的相似检索方法，其特征在于，所述金字塔降维矩阵集合M_RD{M₁，M₂，……，M_P-1}通过以下方式进行更新：

定期根据特征向量数据对所述金字塔降维矩阵集合M_RD{M₁，M₂，……，M_P-1}进行迭代计算，得到更新的金字塔降维矩阵集合M_RD{M₁，M₂，……，M_P-1}。

6.一种海量特征向量数据的相似检索设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的海量特征向量数据的相似检索程序，所述海量特征向量数据的相似检索程序被所述处理器执行时实现如权利要求1至5中任一项所述的海量特征向量数据的相似检索方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有海量特征向量数据的相似检索程序，所述海量特征向量数据的相似检索程序被处理器执行时实现如权利要求1至5中任一项所述的海量特征向量数据的相似检索方法的步骤。