CN114218210A

CN114218210A - 一种数据处理方法、装置和电子设备

Info

Publication number: CN114218210A
Application number: CN202111387227.2A
Authority: CN
Inventors: 谢超; 吕曌; 潘翔; 易小萌
Original assignee: Shanghai Zerui Information Technology Co ltd
Current assignee: Shanghai Zerui Information Technology Co ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-03-22

Abstract

本发明实施例公开了一种数据处理方法、装置和电子设备。本发明实施例通过获取数据集，确定所述数据集对应的初始向量，其中，所述数据集中包括至少一个数据，所述初始向量包括所述数据集中每个数据对应的向量；根据设定算法，确定所述初始向量对应的向量索引；将所述向量索引进行聚合和降维，确定中间向量；根据预先设置的给定消息传递函数以及损失函数对所述中间向量进行编码映射，生成目标向量。通过上述方法，可以将给定数据集对应的向量映射到较低维度的同时又能保持数据集的偏序关系，提高索引精度和索引速度。

Description

一种数据处理方法、装置和电子设备

技术领域

本发明涉及计算机技术领域，具体涉及一种数据处理方法、装置和电子设备。

背景技术

在向量存储数据库中，给定的数据集的来源不能确定，不同的数据集具有不同的表示空间，数据集对应的向量在向量数据库中进行检索时所述数据集对应的向量映射之后生成的向量维度越低，检索速度越快，检索精度也越高，但是由于检索的本质在于寻找向量之间的排序从而找到相似向量，因此数据集对应的向量在降维之后，需要保持原有的偏序关系。

现有技术中，通过主成分分析(Principal Component Analysis，PCA)、奇异值分解(Singular Value Decomposition，SVD)和编码器(encoder)等方式获取数据的内在结构，上述方式对类似于数据合并等任务是比较友好的，但是对于向量检索来说，上述方式不能保证在进行向量映射之后保持原有的偏序关系，进而影响向量检索的精度。

因此，如何将给定数据集对应的向量映射到较低维度的同时又能保持数据集的偏序关系，进而提高索引精度和索引速度是目前需要解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种数据处理方法、装置和电子设备，可以将给定数据集对应的向量映射到较低维度的同时又能保持数据集的偏序关系，提高索引精度和索引速度。

第一方面，本发明实施例提供了一种数据处理方法，该方法包括：

获取数据集，确定所述数据集对应的初始向量，其中，所述数据集中包括至少一个数据，所述初始向量包括所述数据集中每个数据对应的向量；

根据设定算法，确定所述初始向量对应的向量索引；

将所述向量索引进行聚合和降维，确定中间向量；

根据预先设置的给定消息传递函数以及损失函数对所述中间向量进行编码映射，生成目标向量。

可选的，所述方法还包括：

根据所述目标向量作为向量数据库的输入，对所述向量数据库进行参数调节，获取新的向量数据库。

可选的，所述根据设定算法，确定所述初始向量对应的向量索引，具体包括：

根据邻近算法，确定所述初始向量对应的向量索引。

可选的，所述根据邻近算法，确定所述初始向量对应的向量索引，具体包括：

根据邻近算法确定所述初始向量对应的邻近算法的邻近图，根所述邻近图确定所述初始向量对应的向量索引。

可选的，所述将所述向量索引进行聚合和降维，确定中间向量，具体包括：

根据聚合函数和降维函数对所述向量索引进行聚合和降维，确定中间向量。

第二方面，本发明实施例提供了一种数据处理装置，该方法包括：

获取单元，用于获取数据集，确定所述数据集对应的初始向量；

确定单元，用于根据设定算法，确定所述初始向量对应的向量索引；

处理单元，用于将所述向量索引进行聚合和降维，确定中间向量；

生成单元，用于根据预先设置的给定消息传递函数以及损失函数对所述中间向量进行编码映射，生成目标向量。

可选的，该装置还包括：调节单元，用于根据所述目标向量作为向量数据库的输入，对所述向量数据库进行参数调节，获取新的向量数据库。

可选的，所述确定单元具体用于：

根据邻近算法，确定所述初始向量对应的向量索引。

可选的，所述确定单元具体用于：

可选的，所述处理单元具体用于：

第三方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。

本发明实施例通过获取数据集，确定所述数据集对应的初始向量，其中，所述数据集中包括至少一个数据，所述初始向量包括所述数据集中每个数据对应的向量；根据设定算法，确定所述初始向量对应的向量索引；将所述向量索引进行聚合和降维，确定中间向量；根据预先设置的给定消息传递函数以及损失函数对所述中间向量进行编码映射，生成目标向量。通过上述方法，可以将给定数据集对应的向量映射到较低维度的同时又能保持数据集的偏序关系，提高索引精度和索引速度。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例中一种数据处理的方法流程图；

图2是本发明实施例中一种数据处理的方法流程图；

图3是本发明实施例中一种数据处理的方法流程图；

图4是本发明实施例中一种数据处理的装置示意图；

图5是本发明实施例的一种电子设备示意图。

具体实施方式

以下基于实施例对本发明公开进行描述，但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

用户根据数据集在向量存储数据库中进行检索，在检索过程中，数据集包括多个数据，数据集对应的向量即所述多个数据对应的向量，用户根据数据集在向量存储数据库中进行检索即根据数据集对应的向量在所述向量存储数据库中进行检索，在向量数据库中进行检索时所述数据集对应的向量维度越高，检索的速度越慢，检索的精度越低，因此对数据集对应的向量进行映射，映射之后生成的向量维度越低，检索速度越快，检索精度也越高，但是由于检索的本质在于寻找向量之间的排序从而找到相似向量，因此数据集对应的向量在降维之后，需要保持原有的偏序关系。

现有技术中，大规模向量检索技术主要用于在包含大量向量的数据机中查找与给定查询向量最为相似的向量，具体的，向量之间的相似度可以用欧式距离，向量夹角等指标进行计算；对于向量检索，向量的维度越低检索过程的效率越高，构建和存储向量索引的成本也越低。因此，在向量数据库/向量检索系统中，对向量数据进行降维处理能够潜在的提升系统效率，降低系统成本。然而，对于向量检索任务，降维过程需要保留向量之间相似度的偏序关系才能保证结果的准确性不受影响。现有技术中，向量降维的方式通过通过主成分分析(Principal Component Analysis，PCA)、奇异值分解(Singular ValueDecomposition，SVD)和编码器(encoder)等方式获取数据的内在结构，对数据进行有效的降维。具体的，内在结构可以为流行拓扑空间(manifold)，上述方式对数据的下游任务时友好的，例如，所述数据的下游任务类似于数据合并，即上述方式对数据合并是比较友好的，但是对于向量检索来说，上述方式不能保证在进行向量映射之后维持原有的结构以及保持原有的偏序关系，进而影响向量检索的精度。并且，若采用上述向量降维的方式，由于向量自聚类的性质，会导致索引构建过程中向量编码效率较低。

综上所述，如何将给定数据集对应的向量映射到较低维度的同时又能保持数据集的偏序关系，有效避免对相似度偏序关系的影响，进而提高索引精度和索引速度是目前需要解决的问题。

本发明实施例中，为了解决如何将给定数据集对应的向量映射到较低维度的同时又能保持数据集的偏序关系的问题，提出了一种数据处理的方法，具体如图1所示，图1是本发明实施例的一种数据处理的方法流程图。具体包括如下步骤：

步骤S100、获取数据集，确定所述数据集对应的初始向量，其中，所述数据集中包括至少一个数据，所述初始向量包括所述数据集中每个数据对应的向量。

具体的，所述数据集可以为用户端提供的，即用户需要检索的数据的集合，用户在向量存储数据库中检索所述数据集合，在数据库的角度即数据库获取数据集；根据数据集在向量存储数据库中进行检索时，需要先将所述数据集转换为向量形式，即通过初始向量表示所述数据集，通过所述初始向量表示所述数据集的向量维度较高。

举例说明，所述数据集为[黄猫的图片、花猫的图片、黑猫的图片]，需要将所述数据集转换为向量形式，假设初始向量的维度为20，向量维度较高，会导致检索时的速度较慢。此处仅仅为示例性说明，具体的数据集中的内容以及初始向量的维度根据实际情况确定，本发明实施例对其不做限定。

步骤S101、根据设定算法，确定所述初始向量对应的向量索引。

具体的，所述根据设定算法，确定所述初始向量对应的向量索引，具体包括：根据邻近算法，确定所述初始向量对应的向量索引。

在一种可能的实现方式中，所述根据邻近算法，确定所述初始向量对应的向量索引，具体包括：根据邻近算法确定所述初始向量对应的邻近算法的邻近图，根所述邻近图确定所述初始向量对应的向量索引。

在一种可能的实现方式中，所述邻近算法(k-NearestNeighbor，KNN)首先设定一个k值，在之后的搜索中，根据每个向量的邻近算法KNN建立KNN图，即邻近图，具体的，所述p和q为两个向量，若向量p和向量q之间的距离是k个中最小的距离，则KNN图是由一条边连接向量p和向量q的图。

步骤S102、将所述向量索引进行聚合和降维，确定中间向量。

具体的，所述将所述向量索引进行聚合和降维，确定中间向量，具体包括：根据聚合函数和降维函数对所述向量索引进行聚合和降维，确定中间向量。

本发明实施例中，所述聚合函数(aggregation function)用于聚拢索引中靠近的邻居，从而使其更近；所述降维函数(reduction function)是类似于神经网络中维度的处理。

步骤S103、根据预先设置的给定消息传递函数以及损失函数对所述中间向量进行编码映射，生成目标向量。

在一种可能的实现方式中，所述给定消息传递函数为KNN图的边；由于所述损失函数，中间向量进行编码映射之后，虽然生成的目标函数的维度降低，但是不会破坏向量间的排序。

本发明实施例中，中间向量经过编码映射也可以为广义的语言相关的数据集提供隐私保护，使映射之后的向量更难解码。

本发明实施例中，通过上述方法，可以将给定数据集对应的向量映射到较低维度的同时又能保持数据集的偏序关系，提高索引精度和索引速度。

在一种可能的实现方式中，所述方法还包括步骤S104，如图2所示，具体如下：

步骤S104、根据所述目标向量作为向量数据库的输入，对所述向量数据库进行参数调节，获取新的向量数据库。

本发明实施例中，由于所述目标向量的维度降低，并且保证了向量映射之后可以维持原有的结构以及保持原有的偏序关系，可以保持提高检索速度的同时也保证了检索的精度。

在一种可能的实现方式中，本发明实施例通过深度神经网络，对向量检索任务提供一种向量数据的降维方法，在降低向量维度的同时保持向量间相似度的偏序关系。

举例说明，假设有原始向量A，B和C，经过降维之后分别被映射成为向量A’,B’和C’；原始向量相似度的计算函数为f，降维后向量相似度的计算函数为g；其中，所述f和g可以是相同的函数也有可能是不同的函数。假设f(A,B)>f(A,C)，当g(A',B')>g(A',C')时，上述映射保持了相似度的偏序关系，当g(A',B')＜g(A',C')或g(A',B')＝g(A',C')时，则改变了偏序关系。

在一种可能的实现方式中，当原始向量数据集有多个向量时，A，B，C有多种选择的可能性，为了保持降维过程能尽可能多的组合的相似度偏序关系，具体的处理过程如图3所示，包括以下步骤：

步骤S300、根据用户需求获取原始向量数据集和向量索引类型。

具体的，所述用户需求包括但不限于对响应速度，内存使用量要求，查询准确度要求等。

步骤S301、根据原始数据集的特性和用户需求选择合适的深度神经网络模型以及所述深度神经网络模型对应的损失函数。

具体的，所述数据集的特性包括但不限于数据量的大小，维度的高低，数据类型(整数、浮点数等)，各维度上数据的均值方差等分布特性。

步骤S302、通过所述深度神经网络模型和损失函数对原始数据集进行训练。

可选的，所述深度神经网络模型可以为图神经网络。首先，对原始数据集计算k近邻图，其中，所述近邻图中每个节点代表一个向量，每个向量和与其最相似的k个邻居向量在图中通过边相连；然后，使用深度学习方法对图中每个节点进行编码，目标是图中的节点间距离越短，得到的编码越相似。

步骤S303、使用训练好的所述深度神经网络模型对原始向量进行处理。

具体的，所述图神经网络中，训练完成后每个节点的编码就是相应原始向量降维后得到的向量。

步骤S304、将处理后得到的向量插入向量数据库或者检索系统，为其构建索引。

图4是本发明实施例的数据搜索装置的示意图。如图4所示，数据搜索装置包括请求获取单元401、确定单元402、处理单元403和生成单元404。

其中，所述获取单元401，用于获取数据集，确定所述数据集对应的初始向量；所述确定单元402，用于根据设定算法，确定所述初始向量对应的向量索引；所述处理单元403，用于将所述向量索引进行聚合和降维，确定中间向量；所述生成单元404，用于根据预先设置的给定消息传递函数以及损失函数对所述中间向量进行编码映射，生成目标向量。

在一种可能的实现方式中，该装置还包括：调节单元，用于根据所述目标向量作为向量数据库的输入，对所述向量数据库进行参数调节，获取新的向量数据库。

在一种可能的实现方式中，所述确定单元具体用于：

根据邻近算法，确定所述初始向量对应的向量索引。

在一种可能的实现方式中，所述确定单元具体用于：

在一种可能的实现方式中，所述处理单元具体用于：

图5是本发明实施例的电子设备的示意图。如图5所示，图5所示的电子设备为通用地址查询装置，其包括通用的计算机硬件结构，其至少包括处理器50和存储器51。处理器50和存储器51通过总线52连接。存储器51适于存储处理器50可执行的指令或程序。处理器50可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器50通过执行存储器51所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线52将上述多个组件连接在一起，同时将上述组件连接到显示控制器53和显示装置以及输入/输出(I/O)装置54。输入/输出(I/O)装置54可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置54通过输入/输出(I/O)控制器56与系统相连。

如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明实施例的各个方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。

用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是，流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中，使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。

计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上，以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，该方法包括：

根据设定算法，确定所述初始向量对应的向量索引；

将所述向量索引进行聚合和降维，确定中间向量；

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述根据设定算法，确定所述初始向量对应的向量索引，具体包括：

根据邻近算法，确定所述初始向量对应的向量索引。

4.如权利要求1所述的方法，其特征在于，所述根据邻近算法，确定所述初始向量对应的向量索引，具体包括：

5.如权利要求1所述的方法，其特征在于，所述将所述向量索引进行聚合和降维，确定中间向量，具体包括：

6.一种数据处理装置，其特征在于，该方法包括：

7.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器执行以实现如权利要求1-5中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行以实现如权利要求1-5中任一项所述的方法。