CN115510089A

CN115510089A - 一种向量特征比对方法、电子设备及存储介质

Info

Publication number: CN115510089A
Application number: CN202211428175.3A
Authority: CN
Inventors: 刘晓文; 李凡平; 石柱国
Original assignee: ISSA Technology Co Ltd
Current assignee: ISSA Technology Co Ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2022-12-23
Anticipated expiration: 2042-11-15
Also published as: CN115510089B

Abstract

本发明提供了一种向量特征比对方法、电子设备及存储介质，该方法包括：获取待比对特征向量；对待比对特征向量进行降维处理，获得处理后特征向量；根据处理后特征向量从第二数据库或第三数据库中，确定出第一目标数据信息标识；获取第一目标原始特征向量；根据第一目标原始特征向量对应的匹配度，确定第二目标原始特征向量；将每一第二目标原始特征向量对应的数据信息标识作为第二目标数据信息标识；获取并输出对应的属性信息。本发明通过第二数据库和第三数据库的特征向量的不同处理效率，对不同数据特性的待比对特征向量进行特征比对处理，加快了特征比对速度，且通过降维处理，使向量特征检索系统可处理高维度的特征向量的特征比对工作。

Description

一种向量特征比对方法、电子设备及存储介质

技术领域

本发明涉及数据处理领域，特别是涉及一种向量特征比对方法、电子设备及存储介质。

背景技术

目前的向量特征比对方法采用暴力检索的比对方式，即需要进行特征比对时，将待比对的特征向量与CPU（中央处理器）数据库中的所有特征向量进行一一比对，根据比对的匹配度进行排列，输出匹配度较高的特征向量的数据信息。此种比对方式适用于维度较低的特征向量，目前大部分待比对的特征向量的维度为512维或1024维，此种维度较高的特征向量在采用暴力检索进行特征比对时，CPU数据库的比对处理效率会下降，因此，现有技术中暴力检索的比对方式不适用于高维度和大数据量的特征向量的比对工作。

发明内容

针对上述技术问题，本发明提供一种向量特征比对方法、电子设备及存储介质，至少部分解决现有技术中存在的技术问题，本发明采用的技术方案为：

根据本申请的一个方面，提供一种向量特征比对方法，应用于向量特征检索系统，向量特征检索系统包括第一数据库、第二数据库和第三数据库，第一数据库分别与第二数据库和第三数据库通信连接；第一数据库用于存储若干原始数据，每个原始数据包括数据信息标识和原始特征向量，每个原始数据的数据信息标识均不同；第二数据库用于存储每一原始特征向量对应的第一特征向量和对应的数据信息标识，第一特征向量为对原始特征向量进行降维处理后得到的；第三数据库用于存储每一原始特征向量对应的第一特征向量、对应的数据信息标识和对应的原始数据的属性信息；第二数据库的读写性能高于第三数据库的读写性能；

所述向量特征比对方法包括如下步骤：

S100、获取待比对特征向量；待比对特征向量的维度与原始特征向量的维度相同；

S200、对待比对特征向量进行降维处理，获得处理后特征向量；处理后特征向量的维度与第一特征向量的维度相同；

S300、根据处理后特征向量从第二数据库或第三数据库中，确定出n个第一目标数据信息标识；第一目标数据信息标识对应的第一特征向量与处理后特征向量之间的匹配度符合第一预设条件；

S400、根据n个第一目标数据信息标识，从第一数据库中获取每一第一目标数据信息标识对应的原始特征向量作为第一目标原始特征向量；

S500、根据待比对特征向量和每一第一目标原始特征向量之间的匹配度，从n个第一目标原始特征向量中，确定出m个第二目标原始特征向量；其中，m＜n；

S600、将每一第二目标原始特征向量对应的数据信息标识作为第二目标数据信息标识；

S700、从第三数据库中获取并输出每一第二目标数据信息标识对应的原始数据的属性信息。

在本申请的一种示例性实施例中，步骤S300包括：

S310、获取每一待比对特征向量对应的处理时间t，处理时间为对应的待比对特征向量最后操作的时间；

S320、若t＞a，则执行步骤S330；若t≤a，则执行步骤S340；其中，a为根据当前时间确定的时间阈值；

S330、根据处理后特征向量从第三数据库中，确定出n个第一目标数据信息标识；

S340、根据处理后特征向量从第二数据库中，确定出n个第一目标数据信息标识。

在本申请的一种示例性实施例中，步骤S330包括：

S331、获取第三数据库中每一第一特征向量，得到第一特征向量集Q=(Q₁,…,Q_b,…,Q_c)；其中，b=1,…,c；c为第三数据库中第一特征向量的数量；Q_b为第三数据库中第b个第一特征向量；

S332、将处理后特征向量与第三数据库中每一第一特征向量进行特征对比处理，得到处理后特征向量与第三数据库中每一第一特征向量之间的匹配度；

S333、根据处理后特征向量与第三数据库中每一第一特征向量之间的匹配度，得到第一匹配度集G=(G₁,…,G_b,…,G_c)；其中，G_b为处理后特征向量与第三数据库中第b个第一特征向量之间的匹配度；

S334、按照数值递减，对G₁,…,G_b,…,G_c进行排序，以得到第一排序列表W=(W₁,…,W_b,…,W_c)；其中，W_b为W中第b个匹配度；

S335、将W₁,…,W_n对应的第一特征向量对应的数据信息标识确定为第一目标数据信息标识；其中，n≤c。

在本申请的一种示例性实施例中，步骤S340包括：

S341、获取第二数据库中每一第一特征向量，得到第二特征向量集P=(P₁,…,P_b,…,P_c)；其中，P_b为第二数据库中第b个第一特征向量；

S342、将处理后特征向量与第二数据库中每一第一特征向量进行特征对比处理，得到处理后特征向量与第二数据库中每一第一特征向量之间的匹配度；

S343、根据处理后特征向量与第二数据库中每一第一特征向量之间的匹配度，得到第二匹配度集K=(K₁,…,K_b,…,K_c)；其中，K_b为处理后特征向量与第二数据库中第b个第一特征向量之间的匹配度；

S344、按照数值递减，对K₁,…,K_b,…,K_c进行排序，以得到第二排序列表Y=(Y₁,…,Y_b,…,Y_c)；其中，Y_b为Y中第b个匹配度；

S345、将Y₁,…,Y_n对应的第一特征向量对应的数据信息标识确定为第一目标数据信息标识。

在本申请的一种示例性实施例中，步骤S500包括：

S510、将待比对特征向量与每一第一目标原始特征向量进行特征对比处理，得到待比对特征向量与每一第一目标原始特征向量之间的匹配度；

S520、根据待比对特征向量与每一第一目标原始特征向量之间的匹配度，得到第三匹配度集E=(E₁,…,E_u,…,E_n)；其中，u=1,…,n，E_u为待比对特征向量与第u个第一目标原始特征向量之间的匹配度；

S530、按照数值递减，对E₁,…,E_u,…,E_n进行排序，以得到第三排序列表Z=(Z₁,…,Z_u,…,Z_n)；其中，Z_u为Z中第u个匹配度；

S540、将Z₁,…,Z_m对应的第一目标原始特征向量确定为第二目标原始特征向量；其中，m≤n。

在本申请的一种示例性实施例中，所述处理后特征向量通过以下方法确定：

S210、对待比对特征向量进行降维处理，得到待比对降维特征向量；待比对降维特征向量的维度与第一特征向量的维度相同；

S220、对待比对降维特征向量进行单位化处理，得到处理后特征向量。

在本申请的一种示例性实施例中，所述单位化处理，包括：

S221、获取待比对降维特征向量的维度值s和向量R=(R₁,R₂,…,R_s)；

S222、获取待比对降维特征向量的模||R||；

S223、确定处理后特征向量为R_new=(R₁/||R||,R₂/||R||,…,R_s/||R||)。

在本申请的一种示例性实施例中，所述降维处理通过PCA模型进行数据处理。

根据本申请的一个方面，提供一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现所述向量特征比对方法。

根据本申请的一个方面，提供一种电子设备，包括处理器和所述非瞬时性计算机可读存储介质。

本发明至少具有以下有益效果：

本发明的向量特征比对方法，先将待比对特征向量进行降维处理，再根据待比对特征向量的数据特性，将降维后的待比对特征向量传输至第二数据库或第三数据库中进行特征比对，得到每一第一特征向量对应的匹配度，将符合第一预设条件的匹配度对应的数据信息标识确定为第一目标数据信息标识，再根据第一目标数据信息标识，从第一数据库中获取对应的原始特征向量，再将获得的每一原始特征向量与待比对特征向量做特征比对处理，得到相应的匹配度，根据匹配度确定出第二目标数据信息标识，最后根据第二目标数据信息标识从第三数据库中获取对应的属性信息。通过第二数据库和第三数据库的特征向量的不同处理效率，来对不同数据特性的待比对特征向量进行特征比对处理，加快了特征比对速度，且通过对待比对特征向量进行降维处理，使向量特征检索系统可以处理高维度大数据量的特征向量的特征比对工作。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的向量特征检索系统的连接框图；

图2为本发明实施例提供的向量特征比对方法的流程图；

图3为本发明实施例提供的降维处理的PCA模型的召回率测试数据表。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，在对特征向量进行特征比对时，将一条特征值与数据库中的全量特征值进行余弦值计算，然后按照余弦值降序排列，此种暴力检索特征比对方法中数据库的处理性能较差，若比对的特征向量的维度增大，相对应的，数据库的处理性能更会下降。目前在特征向量检索领域中，待比对的特征向量大部分都是512维或1024维，如果继续使用暴力检索特征比对的方法，得到的检索结果信息精确度较低，且数据库处理性能较低。

所以，为了解决现有技术中使用暴力检索特征比对方法存在的问题，提供一种向量特征比对方法。

如图1所示，一种向量特征比对方法，应用于向量特征检索系统，向量特征检索系统包括第一数据库、第二数据库和第三数据库，第一数据库分别与第二数据库和第三数据库通信连接；第一数据库用于存储若干原始数据，每个原始数据包括数据信息标识和原始特征向量，每个原始数据的数据信息标识均不同；第二数据库用于存储每一原始特征向量对应的第一特征向量和对应的数据信息标识，第一特征向量为对原始特征向量进行降维处理后得到的；第三数据库用于存储每一原始特征向量对应的第一特征向量、对应的数据信息标识和对应的原始数据的属性信息；第二数据库的读写性能高于第三数据库的读写性能。

第一数据库可以为HBASE数据库，为结构化数据的总数据库，其包括有若干原始数据，原始数据中有对应的数据信息标识和原始特征向量，原始特征向量可为128维特征向量，每个原始数据都有对应的一个数据信息标识，用以表示其对应的原始数据，且每个原始数据的数据信息标识均不同，可以方便后续在特征向量检索中，根据数据信息标识来查找到对应的原始数据。

第二数据库可以为GPU的heavydb数据库，其为存储热数据的数据库，热数据为访问次数频繁的数据，热数据使用GPU进行存储和计算可以获得较高的处理性能，其中包括第一特征向量和对应的数据信息标识，第一特征向量由对应的原始特征向量降维获得，如原始特征向量为128维，第一特征向量可为32维，其对应的数据信息标识与原始特征向量的数据信息标识相同，但由于GPU的资源较贵，要尽可能的减少第二数据库中的数据存储量，所以，将原始数据的属性信息存储至第三数据库中，第三数据库可以为CPU的clickhouse数据库，为存储冷数据的数据库，冷数据为访问次数较少的数据，可以为离线数据，由于CPU的资源比GPU的资源廉价，所以，将原始特征向量降维后的第一特征向量、对应的数据信息标识和原始数据的属性信息均存储在第三数据库中，原始数据的属性信息可以表示为原始数据特有属性的信息，如原始数据的相应字段，用来表示此原始数据的功能或其包含的信息。第三数据库中的第一特征向量与第二数据库中的第一特征向量的维度相同，都是由对应的原始特征向量降维而来，所以，第一数据库、第二数据库和第三数据库对应的同一个特征向量的数据信息标识也相同。

第一数据库中存储的原始数据为结构化数据，每一个结构化数据在进入向量特征检索系统时，先将原始的结构化数据作为原始数据存储到第一数据库中，再对第一数据库中的原始数据做降维处理，将原始数据中的原始特征向量降维为第一特征向量，将第一特征向量和对应的数据信息标识存储至第二数据库中，当第二数据库中的第一特征向量的存储时间超过阈值时，将第二数据库中的第一特征向量、对应的数据信息标识和对应原始数据的属性信息存储至第三数据库中，所以，第三数据库中存储的信息为原始特征向量降维后的全部信息，第二数据库中存储的只为原始特征向量降维后的第一特征向量和对应的数据信息标识。

如图2所示，所述向量特征比对方法包括如下步骤：

S100、获取待比对特征向量；待比对特征向量的维度与原始特征向量的维度相同；待比对特征向量为将要比对检索的特征向量，其维度与第一数据库中的原始特征向量的维度相同，如为128维特征向量；

S200、对待比对特征向量进行降维处理，获得处理后特征向量；处理后特征向量的维度与第一特征向量的维度相同；所述降维处理通过PCA模型进行数据处理；

将待比对特征向量做降维处理，使其降维后的维度与第二数据库、第三数据库中存储的第一特征向量的维度相同，便于后续进行特征向量检索，如降维后的维度可为32维。

PCA降维与其他降维方式（从前往后截取特征值、均匀切分截取特征值、训练高维度的同时训练低维度的特征向量）相比，效果最好，如图3所示为使用PCA对500样本数据降维到32维的召回率的测试数据表格，通过图3可知，PCA的召回率较高，所以选用PCA模型进行降维处理，PCA采用sdk（软件开发工具包）中的算法包即可。通过PCA模型进行降维处理，一方面节省了四分之三的内存、显存和磁盘空间，另一方面特征长度也减少了四分之三，对应的降维计算时间也相应减少了四分之三，缩短了降维处理的时间。

根据处理后特征向量的数据特性，来确定其在第二数据库还是第三数据库中进行特征比对，与第二数据库或第三数据库中的第一特征向量一一比对后，得到每个第一特征向量的匹配度，若匹配度符合第一预设条件，则将对应的第一特征向量的数据信息标识确定为第一目标数据信息标识，匹配度即为特征相似度。

由于第一数据库、第二数据库和第三数据库中同一个特征向量的数据信息标识相同，所以，根据一个数据信息标识即可找到第一数据库、第二数据库和第三数据库中对应的特征向量，根据第一目标数据信息标识，从第一数据库中找到对应的原始特征向量，并将此原始特征向量确定为第一目标原始特征向量。

由于待比对特征向量的维度与第一目标原始特征向量的维度相同，所以，将待比对特征向量与第一数据库中每一个第一目标原始特征向量作特征比对，得到对应的每个匹配度，再根据n个匹配度，获取m个符合条件的匹配度，将符合条件的匹配度对应的第一目标原始特征向量确定为第二目标原始特征向量。

根据每一个第二目标数据信息标识，从第三数据库中获取对应的原始数据的属性信息，并进行输出展示。

进一步，步骤S300具体包括：

通过每一待比对特征向量的处理时间与时间阈值进行比较，可判断待比对特征向量属于何种类型数据，若其最后一次操作时间比时间阈值大，则说明其处理频次较少，将其确定为冷数据，并由第三数据库进行处理，反之，若其最后一次操作时间比时间阈值小，则说明其处理频次较多，将其确定为热数据，并由第二数据库进行处理。通过第二数据库的GPU和第三数据库的CPU的冷热数据分离存储的方法，加快了特征比对速度，热数据采用GPU处理更为高效。

具体的，第三数据库中的冷数据处理过程为：步骤S330包括：

将第三数据库中的每一第一特征向量与处理后特征向量进行一一比对，得到每一第一特征向量对应的匹配度，再将c个匹配度按照数据由大到小的顺序进行排列，将前n个匹配度对应的第一特征向量对应的数据信息标识确定为第一目标数据信息标识。步骤S300中的第一预设条件即为匹配度的数值大小排序的前n个匹配度。

具体的，第二数据库中的热数据处理过程为：步骤S340包括：

第二数据库的特征比对方法与第三数据库的特征比对方法相同，也将处理后特征向量与第二数据库中的每一第一特征向量进行一一比对，得到每一第一特征向量对应的匹配度，再将c个匹配度按照数据由大到小的顺序进行排列，将前n个匹配度对应的第一特征向量对应的数据信息标识确定为第一目标数据信息标识。

进一步，第二目标原始特征向量的确定方法为：步骤S500包括：

第二目标原始特征向量的确定方法与第一目标原始特征向量的确定方法相同，由于第一目标原始特征向量和待比对特征向量的维度相同，所以，将第一数据库中的每一个第一目标原始特征向量均与待比对特征向量进行一一比对，得到相对应的匹配度，再将n个匹配度按照数据由大到小排列，将前m个匹配度对应的第一目标原始特征向量确定第二目标原始特征向量。

进一步，处理后特征向量通过以下方法确定：

先对待比对特征向量进行降维处理，再进行单位化处理，第一数据库中的原始特征向量、第二数据库和第三数据库的第一特征向量在入库前也要进行单位化处理，单位化处理可使后续的数据检索特征比对过程的效率提高，后期在进行特征比对时避免了对特征向量的开方，大大减少了计算的复杂度，简化了计算过程。

目前的数据库存储的特征向量是在其处理时，计算特征向量的模，再做具体处理，此种单位化处理方法的特征比对效率较低，且特征比对时间较长，所以，提出本发明的单位化处理方法。

具体的，待比对降维特征向量的单位化处理方法，包括：

S222、获取待比对降维特征向量的模||R||；

在待比对特征向量、原始特征向量、第一特征向量入库前，先将对应的特征向量的模计算出并存储至对应的数据库中，后续有新的特征向量进行特征比对时，无需再计算特征向量的模，只需要计算乘积即可，与现有的单位化处理方法相比，本发明的单位化处理方法，节省了特征对比查询时需要计算的过程时间，优化了特征对比查询速度。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种向量特征比对方法，其特征在于，应用于向量特征检索系统，所述向量特征检索系统包括第一数据库、第二数据库和第三数据库，所述第一数据库分别与所述第二数据库和所述第三数据库通信连接；所述第一数据库用于存储若干原始数据，每个所述原始数据包括数据信息标识和原始特征向量，每个所述原始数据的数据信息标识均不同；所述第二数据库用于存储每一所述原始特征向量对应的第一特征向量和对应的数据信息标识，所述第一特征向量为对所述原始特征向量进行降维处理后得到的；所述第三数据库用于存储每一所述原始特征向量对应的第一特征向量、对应的数据信息标识和对应的原始数据的属性信息；所述第二数据库的读写性能高于所述第三数据库的读写性能；

所述方法包括如下步骤：

S100、获取待比对特征向量；所述待比对特征向量的维度与所述原始特征向量的维度相同；

S200、对所述待比对特征向量进行降维处理，获得处理后特征向量；所述处理后特征向量的维度与所述第一特征向量的维度相同；

S300、根据所述处理后特征向量从所述第二数据库或所述第三数据库中，确定出n个第一目标数据信息标识；所述第一目标数据信息标识对应的第一特征向量与所述处理后特征向量之间的匹配度符合第一预设条件；

S400、根据n个所述第一目标数据信息标识，从所述第一数据库中获取每一所述第一目标数据信息标识对应的原始特征向量作为第一目标原始特征向量；

S500、根据待比对特征向量和每一所述第一目标原始特征向量之间的匹配度，从n个所述第一目标原始特征向量中，确定出m个第二目标原始特征向量；其中，m＜n；

S600、将每一所述第二目标原始特征向量对应的数据信息标识作为第二目标数据信息标识；

S700、从所述第三数据库中获取并输出每一所述第二目标数据信息标识对应的原始数据的属性信息。

2.根据权利要求1所述的方法，其特征在于，所述步骤S300具体包括：

S310、获取每一所述待比对特征向量对应的处理时间t，所述处理时间为对应的待比对特征向量最后操作的时间；

S330、根据所述处理后特征向量从所述第三数据库中，确定出n个第一目标数据信息标识；

S340、根据所述处理后特征向量从所述第二数据库中，确定出n个第一目标数据信息标识。

3.根据权利要求2所述的方法，其特征在于，所述步骤S330包括：

S331、获取所述第三数据库中每一第一特征向量，得到第一特征向量集Q=(Q₁,…,Q_b,…,Q_c)；其中，b=1,…,c；c为所述第三数据库中第一特征向量的数量；Q_b为所述第三数据库中第b个第一特征向量；

S332、将所述处理后特征向量与所述第三数据库中每一第一特征向量进行特征对比处理，得到处理后特征向量与第三数据库中每一第一特征向量之间的匹配度；

4.根据权利要求3所述的方法，其特征在于，所述步骤S340包括：

S341、获取所述第二数据库中每一第一特征向量，得到第二特征向量集P=(P₁,…,P_b,…,P_c)；其中，P_b为所述第二数据库中第b个第一特征向量；

S342、将所述处理后特征向量与所述第二数据库中每一第一特征向量进行特征对比处理，得到处理后特征向量与第二数据库中每一第一特征向量之间的匹配度；

5.根据权利要求1所述的方法，其特征在于，所述步骤S500包括：

S510、将待比对特征向量与每一所述第一目标原始特征向量进行特征对比处理，得到待比对特征向量与每一所述第一目标原始特征向量之间的匹配度；

S520、根据待比对特征向量与每一所述第一目标原始特征向量之间的匹配度，得到第三匹配度集E=(E₁,…,E_u,…,E_n)；其中，u=1,…,n，E_u为待比对特征向量与第u个第一目标原始特征向量之间的匹配度；

6.根据权利要求1所述的方法，其特征在于，所述步骤S200具体包括：

S210、对所述待比对特征向量进行降维处理，得到待比对降维特征向量；所述待比对降维特征向量的维度与所述第一特征向量的维度相同；

S220、对所述待比对降维特征向量进行单位化处理，得到处理后特征向量。

7.根据权利要求6所述的方法，其特征在于，所述步骤S220具体包括：

S221、获取所述待比对降维特征向量的维度值s和向量R=(R₁,R₂,…,R_s)；

S222、获取所述待比对降维特征向量的模||R||；

8.根据权利要求1所述的方法，其特征在于，所述降维处理通过PCA模型进行数据处理。

9.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项的所述方法。

10.一种电子设备，其特征在于，包括处理器和权利要求9中所述的非瞬时性计算机可读存储介质。