CN116304258B

CN116304258B - 基于向量数据库的检索方法、检索系统及可读存储介质

Info

Publication number: CN116304258B
Application number: CN202310540309.9A
Authority: CN
Inventors: 李剑楠; 苏鹏; 阎虎青; 黄炎; 李恒
Original assignee: Shanghai Aikesheng Information Technology Co ltd
Current assignee: Shanghai Aikesheng Information Technology Co ltd
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-07-21
Anticipated expiration: 2043-05-15
Also published as: CN116304258A

Abstract

本发明提供一种基于向量数据库的检索方法，包括以下步骤：确定被输入数据的检索场景，所述检索场景包括流处理场景和批处理场景；若所述检索场景为流处理场景，则调用第一近似最近邻搜索索引在预先获取的向量数据库中对所述被输入数据进行检索，以检索出与所述被输入数据相对应的待输出向量数据；若所述检索场景为批处理场景，则调用第二近似最近邻搜索索引在所述向量数据库中对所述被输入数据进行检索，以检索出与所述被输入数据相对应的待输出向量数据。本发明能够实现非结构化数据与结构化数据的流批一体化混合查询。

Description

基于向量数据库的检索方法、检索系统及可读存储介质

技术领域

本发明涉及信息检索技术领域，具体涉及一种基于向量数据库的检索方法、检索系统及可读存储介质。

背景技术

随着非结构化数据（如图像、视频和音频）的爆炸性增长，非结构化数据分析在现实世界的丰富应用脉络中的应用愈发广泛存在。许多数据库系统开始纳入非结构化数据分析来满足这些需求。然而，在大多数系统中，对非结构化数据和结构化数据的查询往往被视为不相干的任务，其中混合查询（即涉及两种数据类型混合查询）还没有得到完全支持。

为了促进对非结构化数据的分析，通常会利用基于内容的检索系统。在这些系统中，每个非结构化数据首先被转换为高维特征向量，然后对这些向量进行后续检索。尽管基于内容的检索系统支持非结构化数据分析，但在许多情况下，由于各种原因，非结构化数据和结构化数据都需要混合查询检索。首先，对非结构化数据的查询可能不足以描述所需的对象，在这种情况下，混合查询有助于提高其表现力。其次，最先进的特征向量提取算法的准确性远远不能令人满意，特别是在大型数据集上，混合查询有助于提高准确性。

从非结构化数据中提取的特征向量通常具有极高的维度。在许多应用场景中，如在线购物、工单质检等，由非结构化数据提取出的特征向量可以达到500维以上。此外，这些高维向量是实时生成的。对这种高维向量的实时管理对现有的数据库和向量搜索引擎来说是个负担。一方面，支持相似性搜索的在线数据库系统（如PostgreSQL和MySQL）只适用于多达几十维的向量。另一方面，向量相似性搜索引擎（如Faiss和Vearch）以离线方式来处理和索引高维向量，这无法因对实时更新请求。业内缺乏一种既能满足实时管理的流处理场景和批量处理的批处理场景的混合检索系统。

发明内容

本发明的目的在于提供一种基于向量数据库的检索方法、检索系统及可读存储介质，用以实现非结构化数据与结构化数据的流批一体化混合查询。

为实现上述目的，本发明提供一种基于向量数据库的检索方法，包括以下步骤：确定被输入数据的检索场景，所述检索场景包括流处理场景和批处理场景；若所述检索场景为流处理场景，则调用第一近似最近邻搜索索引在预先获取的向量数据库中对所述被输入数据进行检索，以检索出与所述被输入数据相对应的待输出向量数据；若所述检索场景为批处理场景，则调用第二近似最近邻搜索索引在所述向量数据库中对所述被输入数据进行检索，以检索出与所述被输入数据相对应的待输出向量数据。

可选的，所述检索方法还包括：将所述向量数据库中的与所述被输入数据的特征向量之间的向量距离按从小到大的顺序排名为前预设位数的向量数据作为与所述被输入数据相对应的待输出向量数据。

可选的，所述第一近似最近邻搜索索引为基于图的向量索引，在使用基于图的向量索引的所述第一近似最近邻搜索索引在所述向量数据库中进行检索时，使用剪枝算法。

可选的，所述第二近似最近邻搜索索引为量化向量索引。

可选的，所述被输入数据包括非结构化数据的特征向量与结构化数据的特征向量。

可选的，所述被输入数据包括非结构化数据与结构化数据，在调用第二近似最近邻搜索索引对所述被输入数据进行检索前或者在调用第二近似最近邻搜索索引对所述被输入数据进行检索后，对所述被输入数据的结构化数据进行条件过滤。

可选的，所述向量数据库包括多个子向量数据库，所述检索方法还包括：在每一次检索输出作业完成后，保存该次检索输出作业对应的日志数据，并根据所述日志数据，同步修改所述日志数据对应在多个子向量数据库中的相同的待输出向量数据。

为实现上述目的，本发明还提供一种基于向量数据库的检索系统，包括计算检索模块，存储模块，所述存储模块用于存储向量数据库，所述计算检索模块用于执行上述中任一所述的基于向量数据库的检索方法。

可选的，所述计算检索模块支持异构计算。

为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，当所述计算机程序被执行时，实现上述任一所述的基于向量数据库的检索方法。

本发明提供的基于向量数据库的检索方法、检索系统及可读存储介质具有如下有益效果：

本发明提供的基于向量数据库的检索方法，先确定被输入数据的检索场景，所述检索场景包括流处理场景和批处理场景；若所述检索场景为流处理场景，则调用第一近似最近邻搜索索引在预先获取的向量数据库中进行检索，以检索出与所述被输入数据相对应的待输出向量数据；若所述检索场景为批处理场景，则调用第二近似最近邻搜索索引对所述被输入数据进行检索，在所述向量数据库中进行检索，以检索出与所述被输入数据相对应的待输出向量数据。如此设置，实现根据不同场景对应不同检索方式，且流处理层和批处理层的操作可以共用同一数据库和同一存储空间，实现流批一体化调用与流批一体化存储，兼顾了实时检索与批量检索。

进一步地，由于流处理场景的检索对实时性要求较高，可采用基于图的向量索引，而批处理场景对实时性要求较低，可采用资源消耗更低的另一种近似最近邻搜索索引（如量化向量索引）。如此设置，实现在非结构化数据和结构化数据混合检索工作中，根据不同场景对应不同检索方式，且流处理层和批处理层的操作可以共用同一数据库和同一存储空间，实现流批一体化调用与流批一体化存储，兼顾了非结构化数据和结构化数据混合情况下的实时检索与批量检索。

由于本发明提供的基于向量数据库的检索系统和可读存储介质与本发明提供的基于向量数据库的检索方法属于同一发明构思，因此本发明提供的基于向量数据库的检索系统和可读存储介质具有本发明提供的基于向量数据库的检索方法的所有优点，故在此不再对本发明提供的基于向量数据库的检索系统和可读存储介质所具有的有益效果一一进行赘述。

附图说明

图1为本发明一实施例提供的基于向量数据库的检索方法的流程示意图；

图2为本发明一实施例提供的基于向量数据库的检索方法的剪枝算法原理示意图；

图3为本发明一实施例提供的基于向量数据库的检索系统的方框结构示意图；

其中，附图标记如下：

被输入数据-10，计算检索模块-100，存储模块-200。

具体实施方式

为使本发明的目的、优点和特征更加清楚，以下结合附图和具体实施例对本发明作进一步详细说明。需说明的是，附图均采用非常简化的形式且未按比例绘制，仅用以方便、明晰地辅助说明本发明实施例的目的。此外，附图所展示的结构往往是实际结构的一部分。特别的，各附图需要展示的侧重点不同，有时会采用不同的比例。

应当明白，当元件或层被称为"在…上"、"连接到"其它元件或层时，其可以直接地在其它元件或层上、连接其它元件或层，或者可以存在居间的元件或层。相反，当元件被称为"直接在…上"、"直接连接到"其它元件或层时，则不存在居间的元件或层。尽管可使用术语第一、第二、第三等描述各种元件、部件、区、层和/或部分，这些元件、部件、区、层和/或部分不应当被这些术语限制。这些术语仅仅用来区分一个元件、部件、区、层或部分与另一个元件、部件、区、层或部分。因此，在不脱离本发明教导之下，下面讨论的第一元件、部件、区、层或部分可表示为第二元件、部件、区、层或部分。空间关系术语例如“在……之下”、“在下面”、“下面的”、“在……之上”、“在上面”、“上面的”等，在这里可为了方便描述而被使用从而描述图中所示的一个元件或特征与其它元件或特征的关系。应当明白，除了图中所示的取向以外，空间关系术语意图还包括使用和操作中的器件的不同取向。例如，如果附图中的器件翻转，然后，描述为“在……之下”、“在下面”、“下面的”元件或特征将取向为在其它元件或特征“上”。器件可以另外地取向(旋转90度或其它取向)并且在此使用的空间描述语相应地被解释。在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时，单数形式的"一"、"一个"和"所述/该"也意图包括复数形式，除非上下文清楚地指出另外的方式。还应明白术语“包括”用于确定可以特征、步骤、操作、元件和/或部件的存在，但不排除一个或更多其它的特征、步骤、操作、元件、部件和/或组的存在或添加。在此使用时，术语"和/或"包括相关所列项目的任何及所有组合。

为实现上述目的，本发明提供一种基于向量数据库的检索方法，请参考图1，图1为本发明一实施例提供的基于向量数据库的检索方法的流程示意图。如图1所示，所述基于向量数据库的检索方法包括以下步骤：

确定被输入数据的检索场景，所述检索场景包括流处理场景和批处理场景；

若所述检索场景为流处理场景，则调用第一近似最近邻搜索索引在预先获取的向量数据库中进行检索，以检索出与所述被输入数据相对应的待输出向量数据；

若所述检索场景为批处理场景，则调用第二近似最近邻搜索索引对所述被输入数据进行检索，在所述向量数据库中进行检索，以检索出与所述被输入数据相对应的待输出向量数据。

由此，本发明提供的基于向量数据库的检索方法可以实现根据不同场景对应不同检索方式，且流处理层和批处理层的操作可以共用同一数据库和同一存储空间，实现流批一体化调用与流批一体化存储，兼顾了实时检索与批量检索

进一步的，为实现对检索结果的输出以及提高检索结果的准确性与全面性，所述检索方法还包括：将所述向量数据库中的与所述被输入数据的特征向量之间的向量距离按从小到大的顺序排名为前预设位数的向量数据作为与所述被输入数据相对应的待输出向量数据。

在示范性的实施例中，由于流处理场景的检索对实时性要求较高，可采用基于图的向量索引，而批处理场景对实时性要求较低，可采用资源消耗更低的近似最近邻搜索索引。如此设置，实现在非结构化数据和结构化数据混合检索工作中，根据不同场景对应不同检索方式，且流处理层和批处理层的操作可以共用数据库和存储空间，实现流批一体化调用与流批一体化存储，兼顾了非结构化数据和结构化数据混合情况下的实时检索与批量检索。

当所述第一近似最近邻搜索索引为基于图的向量索引时，能够实现实时性的高效检索，但占用资源会较大，这种场景更适用于所述流处理场景。而在针对一些不需要进行实时检索的场景，则可使用资源占用相对小的另一种近似最近邻搜索索引（如量化向量索引），在一个示范性的实施例中，所述第二近似最近邻搜索索引为量化向量索引，如此设置，能够减少批处理场景中的资源占用，兼顾效率与资源成本。需要说明的是，所述基于图的向量索引包括但不限于Delaunay Graph:德劳内图、Relative Neighborhood Grap:RNG图、K-Nearest Neighbor Graph:K近邻图及Minimum Spanning Graph:最小生成树等。所述量化向量索引包括但不限于IVF-PQ 基于量化的向量检索算法。

进一步的，在使用基于图的向量索引的所述第一近似最近邻搜索索引对所述被输入数据进行检索时，使用剪枝算法。请参考图2，图2为本发明一实施例提供的基于向量数据库的检索方法的剪枝算法原理示意图。如图2所示，剪枝算法更适用于基于图的向量索引原理的近似最近邻搜索索引，剪枝算法能够减小检索过程中产生的搜索树规模、尽早排除搜索树中不必要的分支，如图2中被输入数据10（为便于理解，图2中将其对应节点示意为一圆形），首先根据基于图的向量索引检索到数据6，而数据6在寻找近似最近邻搜索结果时通过剪枝算法尽可能筛选出更接近被输入数据10的数据4（同样示意为圆形）而不是3、7、8、9（为便于区分，图2中3、7、8、9的节点示意成除圆形以外的其他形状），以此类推，便能够在剪枝算法的作用下，快速排除分支，按图中6、4、2、1的顺序更高效地检索到最近邻点的数据。

本发明主要应用于非结构化数据与结构化数据的混合检索查询，因此具体的，所述被输入数据包括非结构化数据与结构化数据，进一步地，所述被输入数据包括非结构化数据的特征向量与结构化数据的特征向量，也即提取所述非结构化数据中的特征向量和所述结构化数据的特征向量共同作为所述被输入数据。这样设置，可以实现非结构化数据（如图像、视频和音频）和对应的结构化数据（如图像、视频和音频的对应文字描述）共同检索，提高检索效率与质量。

所述提取所述非结构化数据中的特征向量和所述结构化数据的特征向量共同作为所述被输入数据，虽然检索效率较高，但对应的资源占用也会增大，更适用于流处理场景。为了在批处理场景中节约占用资源，本发明进一步提供以下技术方案：所述被输入数据包括非结构化数据与结构化数据，在调用第二近似最近邻搜索索引对所述被输入数据进行检索前或者在调用第二近似最近邻搜索索引对所述被输入数据进行检索后，对所述被输入数据的结构化数据进行条件过滤。对结构化数据进行条件过滤占用资源较少，但无法有效应用于非结构化数据，因此在此方案中结构化数据的条件过滤与非结构化数据的检索需要分开进行，这种技术方案更适用于批处理场景。

在许多生产环境中，需要管理的向量数据规模非常庞大。例如，在假照识别中，每天都要在亿级以上规模数据集上快速构建索引和进行检索。此外，为了满足用户的无感知操作，实现毫秒级别的查询延时是必须的。分布式体系结构对于这样大规模的工作负载是必不可少的。此外，必须保持对海量向量的快速检索和对新摄入数据的快速索引。为了满足高可扩展性，本发明围绕“日志即数据”的思想设计分布式检索架构。基于此本发明进一步提供出一下技术方案：所述向量数据库包括多个子向量数据库，在每一次检索输出作业完成后，保存该次检索输出作业对应的日志数据，并根据所述日志数据，同步修改所述日志数据对应在多个子向量数据库中的相同的待输出向量数据。从而实现基于“日志即数据”的分布式存储思想，方便对存储于不同子向量数据库中数据的调用与同步。

本发明还提供一种基于向量数据库的检索系统，请参考图3，图3为本发明一实施例提供的基于向量数据库的检索系统的方框结构示意图。如图3所示，所述检索系统包括计算检索模块100，存储模块200，所述存储模块200用于存储向量数据库，所述计算检索模块100用于执行上述中任一所述的基于向量数据库的检索方法。由于本发明提供的基于向量数据库的检索系统与上文所述的基于向量数据库的检索方法属于同一发明构思，因此本发明提供的基于向量数据库的检索系统具有上文所述的基于向量数据库的检索方法的所有优点，故在此不再对本发明提供的基于向量数据库的检索系统所具有的有益效果进行一一赘述。

优选的，所述计算检索模块支持异构计算。所述异构计算包括但不限于利用GPU、NPU以及CPU等计算架构进行计算，从而实现并行计算能力，满足高并发需求。

为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，当所述计算机程序被执行时，实现上述任一所述的基于向量数据库的检索方法。由于本发明提供的可读存储介质与上文所述的基于向量数据库的检索方法属于同一发明构思，因此本发明提供的可读存储介质具有上文所述的基于向量数据库的检索方法的所有优点，故在此不再对本发明提供的可读存储介质所具有的有益效果进行一一赘述。

本发明实施方式的可读存储介质，可以采用一个或多个计算机可读的介质的任意组合。可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机硬盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其组合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，虽然本发明已以较佳实施例披露如上，然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言，在不脱离本发明技术方案范围情况下，都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围。

还应当理解的是，除非特别说明或者指出，否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等，而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。

此外还应该认识到，此处描述的术语仅仅用来描述特定实施例，而不是用来限制本发明的范围。必须注意的是，此处的以及所附权利要求中使用的单数形式“一个”和“一种”包括复数基准，除非上下文明确表示相反意思。例如，对“一个步骤”或“一个装置”的引述意味着对一个或多个步骤或装置的引述，并且可能包括次级步骤以及次级装置。应该以最广义的含义来理解使用的所有连词。以及，词语“或”应该被理解为具有逻辑“或”的定义，而不是逻辑“异或”的定义，除非上下文明确表示相反意思。此外，本发明实施例的实现可包括手动、自动或组合地执行所选任务。

Claims

1.一种基于向量数据库的检索方法，其特征在于，包括以下步骤：

若所述检索场景为流处理场景，则调用第一近似最近邻搜索索引在预先获取的向量数据库中对所述被输入数据进行检索，以检索出与所述被输入数据相对应的待输出向量数据；

若所述检索场景为批处理场景，则调用第二近似最近邻搜索索引在所述向量数据库中对所述被输入数据进行检索，以检索出与所述被输入数据相对应的待输出向量数据。

2.如权利要求1所述的基于向量数据库的检索方法，其特征在于，所述检索方法还包括：

将所述向量数据库中的与所述被输入数据的特征向量之间的向量距离按从小到大的顺序排名为前预设位数的向量数据作为与所述被输入数据相对应的待输出向量数据。

3.如权利要求1所述的基于向量数据库的检索方法，其特征在于，所述第一近似最近邻搜索索引为基于图的向量索引，在使用基于图的向量索引的所述第一近似最近邻搜索索引在所述向量数据库中进行检索时，使用剪枝算法。

4.如权利要求1所述的基于向量数据库的检索方法，其特征在于，所述第二近似最近邻搜索索引为量化向量索引。

5.如权利要求1所述的基于向量数据库的检索方法，其特征在于，所述被输入数据包括非结构化数据的特征向量与结构化数据的特征向量。

6.如权利要求1所述的基于向量数据库的检索方法，其特征在于，所述被输入数据包括非结构化数据与结构化数据，在调用所述第二近似最近邻搜索索引对所述被输入数据进行检索前或者在调用所述第二近似最近邻搜索索引对所述被输入数据进行检索后，对所述被输入数据的结构化数据进行条件过滤。

7.如权利要求1所述的基于向量数据库的检索方法，其特征在于，所述向量数据库包括多个子向量数据库，所述检索方法还包括：

在每一次检索输出作业完成后，保存该次检索输出作业对应的日志数据，并根据所述日志数据，同步修改所述日志数据对应在多个子向量数据库中的相同的待输出向量数据。

8.一种基于向量数据库的检索系统，其特征在于，包括计算检索模块和存储模块，所述存储模块用于存储向量数据库，所述计算检索模块用于执行如权利要求1至7中任一所述的基于向量数据库的检索方法。

9.如权利要求8所述的基于向量数据库的检索系统，其特征在于，所述计算检索模块支持异构计算。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，当所述计算机程序被执行时，实现如权利要求1至7中任一所述的基于向量数据库的检索方法。