CN117648495B

CN117648495B - 一种基于云原生向量数据的数据推送方法及系统

Info

Publication number: CN117648495B
Application number: CN202410070926.1A
Authority: CN
Inventors: 屠静; 王亚; 赵策; 万晶晶; 李伟伟; 颉彬; 周勤民; 张玥; 雷媛媛; 孙岩; 潘亮亮
Original assignee: Zhuoshi Future Beijing technology Co ltd
Current assignee: Zhuoshi Future Beijing technology Co ltd
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-04-26
Anticipated expiration: 2044-01-18
Also published as: CN117648495A

Abstract

本发明提供一种基于云原生向量数据的数据推送方法及系统，涉及数据处理技术领域，包括：获取原始数据，对原始数据进行预处理；将预处理后的原始数据进行向量化处理，获得云原生向量数据，将云原生向量数据存储至云原生向量数据集群；获取用户的查询请求向量，将查询请求向量与云原生向量数据进行相似度计算，获得相似度指数；预设相似度阈值，将相似度指数大于相似度阈值的云原生向量数据进行推送。本申请能够为用户提供实时的、个性化的推荐或搜索结果，通过获取响应指标，有效评估云原生向量数据集群的性能，进一步优化和调整系统，满足用户查询的性能需求，避免系统推送延迟，提高系统实时性。

Description

一种基于云原生向量数据的数据推送方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于云原生向量数据的数据推送方法及系统。

背景技术

云原生向量数据库是一款具备高可用、高性能、易拓展特点的数据库，可用于海量向量数据的实时召回。云原生向量数据库基于FAISS库（Facebook AI SimilaritySearch）、Annoy、HNSW（Hierarchical Navigable Small World）等向量搜索库构建，其中FAISS库（Facebook AI Similarity Search）是Facebook开发的用于高维向量的相似性搜索的库，Annoy是一种用于近似最近邻搜索的库，特别适用于大规模向量数据，HNSW（Hierarchical Navigable Small World）是一种用于构建高维向量索引的算法，支持高效的最近邻搜索，云原生向量数据库核心是解决稠密向量相似度检索的问题。

在向量检索库的基础上，Milvus是一款开源的向量数据库引擎，专注于存储和检索大规模向量数据，支持数据分区分片、数据持久化、增量数据摄取、标量向量混合查询、timetravel等功能，同时大幅优化了向量检索的性能，可满足任何向量检索场景的应用需求，其中timetravel功能是指允许用户检索数据库中特定时间点或历史版本的数据的功能。

但是现有的一些基于云原生向量数据库的数据推送技术，不便基于高频词数据建立实时数据库，导致在接收到查询向量时需要通过初始数据库进行查询，不便实现实时推送，出现查询效率低的问题。

发明内容

本发明提供了一种基于云原生向量数据的数据推送方法及系统，解决现有技术中在接收到查询向量时需要通过初始数据库进行查询，不便实现实时推送，出现查询效率低的问题。

为解决上述发明目的，本发明提供的技术方案如下：一种基于云原生向量数据的数据推送方法，其特征在于，步骤包括：

S1、获取原始数据，对原始数据进行预处理；

S2、将预处理后的原始数据进行向量化处理，获得云原生向量数据，将云原生向量数据存储至云原生向量数据集群；

S3、获取用户的查询请求向量，将查询请求向量与云原生向量数据进行相似度计算，获得相似度指数；

S4、预设相似度阈值，将相似度指数大于相似度阈值的云原生向量数据进行推送。

可选地，步骤S1中，对原始数据进行预处理，包括：

基于IQR计算原始数据的上下界，将未落入上下界内的数值删除，并基于线性插值进行补充；

获取原始数据中的每个数据项出现的次数进行标记。

可选地，步骤S2中，云原生向量数据集群，包括：

实时查询向量数据库和原始向量数据库。

可选地，步骤S2中，将预处理后的原始数据进行向量化处理，获得云原生向量数据，将云原生向量数据存储至云原生向量数据集群，包括：

统计原始数据中每个数据项出现的次数，将每个数据项出现的次数与预设的出现阈值进行对比；

提取出现次数大于出现阈值的数据项，将数据项标记为高频次数据；将高频次数据进行向量化处理，获得高频次数据原生向量，将高频次数据原生向量存储至实时查询向量数据库；

将原始数据中每个数据项中的数据均进行向量化处理，获得原始数据原生向量，将原始数据原生向量储存至原始向量数据库。

可选地，步骤S3中，获取用户的查询请求向量，将查询请求向量与云原生向量数据进行相似度计算，获得相似度指数，包括：

获取用户的查询请求向量，判断查询请求向量与历次查询请求向量是否均相似；

若相似，则计算重查指数；预设查重阈值，判断重查指数是否小于重查阈值，若小于重查阈值，则将查询请求向量与原始数据原生向量进行相似度计算，获得原始数据相似度指数；若不小于则将查询请求向量与高频次数据原生向量进行相似度计算，获得高频次数据相似度指数。

若不相似，则将查询请求向量与高频次数据原生向量进行相似度计算，获得新相似度指数。

可选地，计算重查指数，包括：

获取查询请求向量与历次查询请求向量的相似度；

获取重查时间间隔、基准推送数据量和基准浏览时间，根据下述公式（1）计算重查指数：

（1）

其中，为重查指数，/>为历次查询请求向量的次数，/>为查询请求向量与第/>次的历次查询请求向量的相似度，/>为第/>个相邻两次输入查询请求向量的间隔时间，/>为第/>次的历次输入查询请求向量响应后推送的数据量，/>为基准推送数据量，/>为基准浏览时间。

可选地，步骤S4中，预设相似度阈值，将相似度指数大于相似度阈值的云原生向量数据进行推送，包括：

预设相似度阈值；

获取原始数据相似度指数，判断原始数据相似度指数是否大于相似度阈值，若大于，则推送原始数据原生向量，否则不推送；

获取高频次数据相似度指数，判断高频次数据相似度指数是否大于相似度阈值，若大于，则推送高频次数据原生向量；若小于，则将查询向量与原始向量数据库中的原始数据原生向量进行相似度计算，获取相似度指数。

可选地，相似度计算，包括：

根据下述公式（2）计算相似度指数：

（2）

其中，为相似度指数，/>为查询请求向量，/>为原始数据原生向量或高频次数据原生向量，/>为向量/>和向量/>的点积，/>为向量/>的范数，/>为向量/>的范数。

可选地，步骤S4之后，还包括：

对云原生向量数据集群响应查询请求向量的性能进行评估，根据下述公式（3）计算响应指标：

（3）

其中，为响应指标，/>为查询向量输入次数；/>为每次查询向量输入后的响应时间；/>为每次查询向量输入后推送的数据量；/>为每次查询向量输入后，与云原生向量数据集群进行相似度计算的最高相似度指数；/>为计算调整参数，计算调整参数根据云原生向量数据集群得到规模设定。

一种基于云原生向量数据的数据推送系统，系统用于上述的基于云原生向量数据的数据推送方法，系统包括：

预处理模块，用于获取原始数据，对原始数据进行预处理；

数据存储模块，用于将预处理后的原始数据进行向量化处理，获得云原生向量数据，将云原生向量数据存储至云原生向量数据集群；

相似度计算模块，用于获取用户的查询请求向量，将查询请求向量与云原生向量数据进行相似度计算，获得相似度指数；

数据推送模块，用于预设相似度阈值，将相似度指数大于相似度阈值的云原生向量数据进行推送；

响应能力评估模块，用于对云原生向量数据集群响应查询请求向量的性能进行评估。

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于云原生向量数据的数据推送方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于云原生向量数据的数据推送方法。

上述技术方案，与现有技术相比至少具有如下有益效果：

上述方案，本发明提供的方法基于云原生向量数据集群进行数据存储，基于高频词数据的标记，引入相似度、重查指数以及相似度阈值的计算，对云原生向量数据进行精准推送，提供实时的、个性化的推荐或搜索结果，通过获取响应指标，有效评估云原生向量数据集群的性能，进一步优化和调整系统，满足用户查询的性能需求，避免系统推送延迟，提高系统实时性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于云原生向量数据的数据推送方法流程示意图；

图2是本发明实施例提供的一种基于云原生向量数据的数据推送系统框图；

图3是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明针对现有技术中基于云原生向量数据库的数据推送技术中，无法基于高频词数据建立实时数据库，导致在接收到查询向量时需要通过初始数据库进行查询，不能实现实时推送查询效率低的问题，提供了一种基于云原生向量数据的数据推送方法和系统。

如图1所示，本发明实施例提供了一种基于云原生向量数据的数据推送方法，该方法可以由电子设备实现。如图1所示的基于云原生向量数据的数据推送方法流程图，该方法的处理流程可以包括如下的步骤：

S101、获取原始数据，对原始数据进行预处理；

一种可行的实施方式中，步骤S101中，对原始数据进行预处理，包括：

基于IQR计算原始数据的上下界，将未落入上下界内的数值删除，并基于线性插值进行补充；其中表示四分位数间距，是统计学中用于度量数据集中分散程度的一种方法。它是数据集中的第三个四分位数与第一个四分位之间的距离，上下界的计算公式为：

式中，为上界，/>为下界，/>为上四分位数，/>为下四分位数，/>为常数，通常为1.5，/>为四分位数间距。

获取原始数据中的每个数据项出现的次数进行标记。

一种可行的实施方式中，收集和获取原始数据，原始数据可以是文本、图像、音频或任何其他类型的数据。对原始数据的预处理还包括文本清洗、特征提取、图像处理等，将预处理后的数据用于后续的向量化。

S102、将预处理后的原始数据进行向量化处理，获得云原生向量数据，将云原生向量数据存储至云原生向量数据集群；

一种可行的实施方式中，云原生向量数据集群，包括：

实时查询向量数据库和原始向量数据库。

云原生向量数据集群包括实时查询向量数据库和原始向量数据库，实时查询向量数据库用于存储高频次数据原生向量，原始向量数据库用于存储原始数据原生向量。

一种可行的实施方式中，实时查询向量数据库能够做到快速检索和查询高频次的数据；针对频繁的查询请求提供了高性能的响应，并存储了先前处理过的查询向量的结果。通过存储高频次查询的向量数据，可以加速对这些查询的响应时间，从而提高系统的实时性。

原始向量数据库用于存储原始数据的原生向量，即数据的向量化表示，原始向量数据库充当数据的存储库，包括所有原始数据的向量表示，存储了不仅限于高频次查询的数据向量。原始向量数据库是系统的核心数据存储，能够为用户进行全面的相似性计算和检索，所以本申请的原始向量数据库用于支持用户更广泛的查询需求。

一种可行的实施方式中，将预处理后的原始数据进行向量化处理，获得云原生向量数据，将云原生向量数据存储至云原生向量数据集群，包括：

一种可行的实施方式中，将经过预处理的数据转化为向量形式，可以通过词嵌入向量Word Embeddings、TF-IDF（Term Frequency-Inverse Document Frequency，词频-逆向文件频率）或神经网络模型来完成；将向量化的数据存储于云原生向量数据集群中，能够确保数据的安全、高效访问和扩展性。

一种可行的实施方式中，本申请中通过对原始数据进行统计分析，对高频次出现的数据项进行了识别；这些数据项是经常被用户查询的数据项，通过找出哪些数据项出现的次数超过了设定的出现阈值，确定高频次数据项，将这些数据项向量化，将向量化后的高频次数据项存储于实时查询向量数据库中。

S103、获取用户的查询请求向量，将查询请求向量与云原生向量数据进行相似度计算，获得相似度指数；

一种可行的实施方式中，当用户提交查询请求时，获取查询请求的数据，将用户查询请求数据向量化，以便与云原生向量数据进行相似度计算，比较用户查询请求向量与云原生向量数据集群中的数据向量之间的相似度。

一种可行的实施方式中，步骤S103中，获取用户的查询请求向量，将查询请求向量与云原生向量数据进行相似度计算，获得相似度指数，包括：

一种可行的实施方式中，本申请通过定义一个相似度阈值，来判断向量数据的相似程度，确定数据是否能够推送，筛选出相似度大于相似度阈值的云原生向量数据，将筛选后的数据实时推送给用户，以满足用户需求。

一种可行的实施方式中，计算重查指数，包括：

获取查询请求向量与历次查询请求向量的相似度；

（1）

其中，为重查指数，/>为历次查询请求向量的次数，/>为查询请求向量与第/>次的历次查询请求向量的相似度，/>为第/>个相邻两次输入查询请求向量的间隔时间，需要举例说明的是，当历次查询请求向量的次数4次时，也即/>时，/>表示为第1次的历次查询请求向量与第2次的历次查询请求向量之间的时间间隔，/>表示为第2次的历次查询请求向量与第3次的历次查询请求向量之间的时间间隔，/>表示为第3次的历次查询请求向量与第4次的历次查询请求向量之间的时间间隔，/>表示为第4次的历次查询请求向量与查询请求向量之间的时间间隔，/>为第/>次的历次输入查询请求向量响应后推送的数据量，/>为基准推送数据量，/>为基准浏览时间。

一种可行的实施方式中，重查指数计算公式中包含了历次查询向量的次数、查询向量与历次查询向量的相似度、相邻两次输入查询向量的间隔时间、历次输入查询向量响应后推送的数据量、基准推送数据量以及基准浏览时间，从而计算得出重查指数；如果用户频繁输入相似度较高的查询向量，而其浏览时间又较短，则可能说明基于实时查询向量数据库推送的数据并不符合用户的要求，因此将查询向量与原始向量数据库进行重新匹配。

S104、预设相似度阈值，将相似度指数大于相似度阈值的云原生向量数据进行推送。

一种可行的实施方式中，步骤S104中，预设相似度阈值，将相似度指数大于相似度阈值的云原生向量数据进行推送，包括：

预设相似度阈值；

一种可行的实施方式中，通过判断查询向量与历次查询向量的相似性，可以动态调整相似度计算的方式，从而优化查询性能。这有助于提高系统的实时性和资源利用性。本申请通过引入重查指数和重查阈值的概念，可以更智能地决定是否需要执行全量相似度计算。如果查询向量与历次查询向量相似度高，并且重查指数小于设定的重查阈值，可以优先使用高频次数据的向量进行相似度计算，节省计算资源。

可选地，相似度计算，包括：

相似度计算方式为余弦相似度计算，根据下述公式（2）计算相似度指数：

（2）

一种可行的实施方式中，根据前一部分的逻辑执行相似度计算，计算查询向量与原始向量数据库中的原始数据原生向量以及实时查询向量数据库中的高频次数据原生向量的相似度指数。在计算相似度指数后，执行推送决策：如果最大的相似度指数大于相似度阈值，选择将相似度指数大于相似度阈值的向量数据进行推送，意味着与查询向量相似的数据将被推送给用户，满足用户需求；如果最大的相似度指数小于相似度阈值，系统决定不推送数据，这避免了将不相关的数据推送给用户。

本发明实施例中，在决策时考虑了相似度阈值和相似度指数，以选择合适的数据源进行推送，这样可以优先使用实时查询向量数据库中的高频次数据原生向量，整个过程实现了动态推送策略，根据查询向量的相似度情况和相似度阈值，选择合适的向量数据进行推送，从而减少了不必要的计算和推送。

一种可行的实施方式中，步骤S104之后，还包括：

（3）

其中，为响应指标，/>为查询向量输入次数；/>为每次查询向量输入后的响应时间；/>为每次查询向量输入后推送的数据量；/>为每次查询向量输入后，与云原生向量数据集群进行相似度计算的最高相似度指数；/>为计算调整参数，计算调整参数根据云原生向量数据集群得到规模进行动态调整。

一种可行的实施方式中，获取每次查询向量与云原生向量数据集群进行相似度计算的最高相似度指数；获取查询向量输入后，数据推送模块推送数据的响应时间以及数据量；基于最高相似度指数、响应时间和推送的数据量计算响应指标。

本发明实施例中，通过获取响应指标，可以有效评估云原生向量数据集群的性能，包括相似度计算的效率和推送的速度，以便进一步优化和调整系统；响应指标能够帮助系统决定如何分配资源，以满足用户查询的性能需求，避免系统延迟，并提高系统实时性。

图2是本发明的一种基于云原生向量数据的数据推送系统示意图，所述系统200用于上述的基于云原生向量数据的数据推送方法，所述系统200包括：

预处理模块210，用于获取原始数据，对原始数据进行预处理；

数据存储模块220，用于将预处理后的原始数据进行向量化处理，获得云原生向量数据，将云原生向量数据存储至云原生向量数据集群；

相似度计算模块230，用于获取用户的查询请求向量，将查询请求向量与云原生向量数据进行相似度计算，获得相似度指数；

数据推送模块240，用于预设相似度阈值，将相似度指数大于相似度阈值的云原生向量数据进行推送；

响应能力评估模块250，用于对云原生向量数据集群响应查询请求向量的性能进行评估。

可选地，预处理模块210，用于获取原始数据中的每个数据项出现的次数进行标记。

可选地，云原生向量数据集群，包括：

实时查询向量数据库和原始向量数据库。

可选地，数据存储模块220，用于统计原始数据中每个数据项出现的次数，将每个数据项出现的次数与预设的出现阈值进行对比；

可选地，相似度计算模块230，用于获取用户的查询请求向量，判断查询请求向量与历次查询请求向量是否均相似；

可选地，计算重查指数，包括：

获取查询请求向量与历次查询请求向量的相似度；

（1）

可选地，数据推送模块240，用于预设相似度阈值；

可选地，相似度计算，包括：

根据下述公式（2）计算相似度指数：

（2）

可选地，响应能力评估模块250，用于对云原生向量数据集群响应查询请求向量的性能进行评估，根据下述公式（3）计算响应指标：

（3）

本发明实施例中，本发明提供的系统通过将原始数据向量化存储，然后进行相似度计算，根据用户的查询向量和性能评估，提供高效的、个性化的数据推送服务，满足用户需求并提高系统的资源利用率；本系统能够高效地推送数据给用户，根据他们的查询向量和兴趣，通过标记高频数据和性能评估，合理分配资源，提高推送的效率；通过云原生向量数据集群存储的原始数据向量化数据，提高系统的实时性，以满足用户对实时数据的需求。

图3是本发明实施例提供的一种电子设备400的结构示意图，该电子设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）401和一个或一个以上的存储器402，其中，所述存储器402中存储有至少一条指令，所述至少一条指令由所述处理器401加载并执行以实现下述基于云原生向量数据的数据推送方法的步骤：

S1、获取原始数据，对原始数据进行预处理；

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述基于云原生向量数据的数据推送方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

Claims

1.一种基于云原生向量数据的数据推送方法，其特征在于，方法步骤包括：

S1、获取原始数据，对原始数据进行预处理；

S2、将所述预处理后的原始数据进行向量化处理，获得云原生向量数据，将所述云原生向量数据存储至云原生向量数据集群；

所述步骤S2中，将所述预处理后的原始数据进行向量化处理，获得云原生向量数据，将所述云原生向量数据存储至云原生向量数据集群，包括：

提取出现次数大于所述出现阈值的数据项，将所述数据项标记为高频次数据；将所述高频次数据进行向量化处理，获得高频次数据原生向量，将所述高频次数据原生向量存储至实时查询向量数据库；

将原始数据中每个数据项中的数据均进行向量化处理，获得原始数据原生向量，将所述原始数据原生向量储存至原始向量数据库；

S3、获取用户的查询请求向量，将所述查询请求向量与所述云原生向量数据进行相似度计算，获得相似度指数；

所述步骤S3中，获取用户的查询请求向量，将所述查询请求向量与所述云原生向量数据进行相似度计算，获得相似度指数，包括：

获取用户的查询请求向量，判断所述查询请求向量与历次查询请求向量是否均相似；

若相似，则计算重查指数；预设重查阈值，判断所述重查指数是否小于所述重查阈值，若小于所述重查阈值，则将所述查询请求向量与所述原始数据原生向量进行相似度计算，获得原始数据相似度指数；若不小于则将所述查询请求向量与所述高频次数据原生向量进行相似度计算，获得高频次数据相似度指数；

若不相似，则将所述查询请求向量与所述高频次数据原生向量进行相似度计算，获得新相似度指数；

所述计算重查指数，包括：

获取所述查询请求向量与历次查询请求向量的相似度；

（1）

其中，为重查指数，/>为历次查询请求向量的次数，/>为查询请求向量与第/>次的历次查询请求向量的相似度，/>为第/>个相邻两次输入查询请求向量的间隔时间，为第/>次的历次输入查询请求向量响应后推送的数据量，/>为基准推送数据量，/>为基准浏览时间；

S4、预设相似度阈值，将所述相似度指数大于所述相似度阈值的云原生向量数据进行推送；

所述步骤S4中，预设相似度阈值，将所述相似度指数大于所述相似度阈值的云原生向量数据进行推送，包括：

预设相似度阈值；

获取所述原始数据相似度指数，判断所述原始数据相似度指数是否大于所述相似度阈值，若大于，则推送所述原始数据原生向量，否则不推送；

获取所述高频次数据相似度指数，判断所述高频次数据相似度指数是否大于所述相似度阈值，若大于，则推送所述高频次数据原生向量；若小于，则将查询向量与原始向量数据库中的原始数据原生向量进行相似度计算，获取相似度指数。

2.根据权利要求1所述的方法，其特征在于，所述步骤S1中，对原始数据进行预处理，包括：

获取所述原始数据中的每个数据项出现的次数进行标记。

3.根据权利要求2所述的方法，其特征在于，所述步骤S2中，所述云原生向量数据集群，包括：

实时查询向量数据库和原始向量数据库。

4.根据权利要求1所述的方法，其特征在于，所述相似度计算，包括：

根据下述公式（2）计算相似度指数：

（2）

5.根据权利要求4所述的方法，其特征在于，所述步骤S4之后，还包括：

对所述云原生向量数据集群响应所述查询请求向量的性能进行评估，根据下述公式（3）计算响应指标：

（3）

其中，为响应指标，/>为查询向量输入次数；/>为每次查询向量输入后的响应时间；/>为每次查询向量输入后推送的数据量；/>为每次查询向量输入后，与云原生向量数据集群进行相似度计算的最高相似度指数；/>为计算调整参数，所述计算调整参数根据云原生向量数据集群得到规模设定。

6.一种基于云原生向量数据的数据推送系统，其特征在于，所述系统用于如权利要求1~5任意一项所述的基于云原生向量数据的数据推送方法，所述系统包括：

预处理模块，用于获取原始数据，对原始数据进行预处理；

数据存储模块，用于将所述预处理后的原始数据进行向量化处理，获得云原生向量数据，将所述云原生向量数据存储至云原生向量数据集群；

相似度计算模块，用于获取用户的查询请求向量，将所述查询请求向量与所述云原生向量数据进行相似度计算，获得相似度指数；

数据推送模块，用于预设相似度阈值，将所述相似度指数大于所述相似度阈值的云原生向量数据进行推送；

响应能力评估模块，用于对所述云原生向量数据集群响应所述查询请求向量的性能进行评估。