CN117076466B

CN117076466B - 一种针对大型档案数据库的快速数据索引方法

Info

Publication number: CN117076466B
Application number: CN202311344947.XA
Authority: CN
Inventors: 李燕强; 齐少华; 马国伟; 张泽宇
Original assignee: Hebei Indoor Technology Co ltd
Current assignee: Hebei Shuzhi Archives Industry Development Co.,Ltd.
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2023-12-29
Anticipated expiration: 2043-10-18
Also published as: CN117076466A

Abstract

本发明涉及数据处理领域，尤其涉及一种针对大型档案数据库的快速数据索引方法。首先，创建Bloom Filter结构，进行预查询筛选；然后，描述查询频率，对索引进行压缩存储，采用增量索引更新技术更新索引；设计分布式节点的动态权重分配策略，根据每个节点的实时负载和性能，动态调整其权重，优化各节点负载；最后，选择缓存效益最大的查询进行缓存，设立查询优先级调度算法对所有查询按照其优先级进行排序。解决了现有技术未采用高效预查询筛选机制，增加了不必要的查询延迟和系统负载；没有对索引进行有效的压缩和分层存储，导致存储空间浪费和查询效率降低；难以应对节点间动态变化的负载以及缺乏有效的查询优先级调度机制的问题。

Description

一种针对大型档案数据库的快速数据索引方法

技术领域

本发明涉及数据处理领域，尤其涉及一种针对大型档案数据库的快速数据索引方法。

背景技术

随着信息技术的发展，大型档案数据库已经成为许多行业和领域中不可或缺的组成部分。这些数据库存储了大量的数据，如文档、图片、视频等，为用户提供了丰富的信息资源。然而，随着数据量的持续增长，如何高效地对这些数据进行索引和查询成为了一个重要的技术挑战。

传统的数据索引方法，如B-tree、R-tree等，虽然在小型或中型数据库中表现良好，但在大型档案数据库中，由于其固有的结构和算法限制，往往难以满足高效、实时的查询需求。特别是在高查询负载的情况下，这些方法可能会导致查询延迟增加、系统负载过高等问题。

因此，如何设计一种针对大型档案数据库的快速数据索引方法，既能高效地处理大量的查询请求，又能确保查询结果的准确性和完整性，同时还能在分布式环境中实现负载均衡，是当前数据库技术研究的一个热点和难点。

我国专利申请号：CN202310632686.5，公开日：2023.08.15，公开了一种数据库索引的优化方法、存储介质与设备。其中上述方法包括：获取数据库操作；根据数据库操作确定索引；根据索引在预设索引系统表中查找需要执行操作的索引分区，预设索引系统表用于记录索引与自身分区的对应关系；根据数据库操作的类型执行对应的操作。通过这种方法，在数据库中将索引进行分区，在接口调用数据库时根据预设系统表找到需要执行的索引分区，从而将高并发的压力分散到各个索引分区中，降低每个索引的并发访问冲突，以此来提升数据库的性能，并且索引分区能够根据调用数据库的接口中的信息来自行确定，提升了数据库使用的便利性。

但上述技术至少存在如下技术问题：现有技术没有采用高效预查询筛选机制，导致大量无效查询进入后续处理流程，增加了不必要的查询延迟和系统负载；没有对索引进行有效的压缩和分层存储，导致存储空间浪费和查询效率降低；难以应对节点间动态变化的负载，可能导致部分节点过载，而其他节点资源浪费；缺乏有效的查询优先级调度机制，导致关键查询的响应时间无法得到保障。

发明内容

本申请实施例通过提供一种针对大型档案数据库的快速数据索引方法，解决了现有技术没有采用高效预查询筛选机制，导致大量无效查询进入后续处理流程，增加了不必要的查询延迟和系统负载；没有对索引进行有效的压缩和分层存储，导致存储空间浪费和查询效率降低；难以应对节点间动态变化的负载，可能导致部分节点过载，而其他节点资源浪费；缺乏有效的查询优先级调度机制，导致关键查询的响应时间无法得到保障。本申请最终形成了一个完整的、高效的、自适应的数据索引系统，为大型档案数据库提供了一个高效、均衡、自适应的数据索引方法。

本申请提供了一种针对大型档案数据库的快速数据索引方法，具体包括以下技术方案：

一种针对大型档案数据库的快速数据索引方法，包括以下步骤：

S100：创建Bloom Filter结构，进行预查询筛选；

S200：描述查询频率，对索引进行压缩存储，采用增量索引更新技术更新索引；

S300：设计分布式节点的动态权重分配策略，根据每个节点的实时负载和性能，动态调整其权重，优化各节点负载；

S400：选择缓存效益最大的查询进行缓存，设立查询优先级调度算法对所有查询按照其优先级进行排序。

优选的，所述S100，具体包括：

快速判断一个元素是否在数据库中，即检查一个元素是否在Bloom Filter中时，将元素放入k个哈希函数中。

优选的，所述S200，具体包括：

采用分层索引压缩技术，采用改进的Zipf-Mandelbrot法则来描述查询频率；所述改进的Zipf-Mandelbrot法则将频繁查询的索引项存储在顶层，使用最小的压缩，而不常查询的索引项存储在底层，使用高度压缩。

优选的，所述S200，还包括：

采用增量索引更新技术；当索引更新时，增量索引更新技术只记录变化的部分，而不是重新压缩整个索引；使用韦布尔分布来描述索引更新的频率；采用索引完整性验证技术；对于每个索引，索引完整性验证技术都计算一个向量，并使用余弦相似度来比较压缩前和压缩后的向量。

优选的，所述S300，具体包括：

定义一个负载指标，所述负载指标是基于每个节点的请求到达率和服务率的函数。

优选的，所述S300，还包括：

为每个节点分配一个权重，权重是基于节点的负载和其性能指标的函数；并对权重进行归一化。

优选的，所述S400，具体包括：

当查询请求到达节点时，首先检查查询缓存是否已经包含该查询的结果；查询缓存是一个动态维护的数据结构，它存储了最近执行的查询及其结果；引入效益函数，所述效益函数基于查询的频率查询在数据库中的执行时间。

优选的，所述S400，还包括：

为了最大化总体缓存效益，需要选择缓存效益最大的查询进行缓存。

优选的，所述S400，还包括：

当查询请求到达节点时，对于检查有缓存的查询结果则直接返回；对于没有缓存的查询结果，设立查询优先级调度算法来决定查询的处理顺序。

有益效果：

本申请实施例中提供的多个技术方案，至少具有如下技术效果或优点：

1、通过采用Bloom Filter结构，能够有效地筛选出不在数据库中的查询，从而避免了不必要的、耗时的查询，大大提高了查询效率；引入分层索引压缩技术，根据查询频率的长尾分布进行索引存储，既节省了存储空间，又确保了高频查询的快速响应；

2、通过设计分布式节点的动态权重分配策略，能够根据每个节点的实时负载和性能，动态调整其权重，从而实现负载均衡，提高系统整体稳定性和响应速度；引入查询缓存机制，将常用的查询结果缓存起来，从而减少查询时间；同时，通过查询优先级调度算法，确保关键查询得到及时响应，进一步提高用户体验。

3、采用基于日志的技术，只记录变化的部分，避免了重新压缩整个索引，从而提高了索引更新的效率；通过索引完整性验证技术，确保了在压缩和解压缩过程中数据的完整性，避免了因数据损坏导致的查询错误。

4、本申请的技术方案能够有效解决现有技术没有采用高效预查询筛选机制，导致大量无效查询进入后续处理流程，增加了不必要的查询延迟和系统负载；没有对索引进行有效的压缩和分层存储，导致存储空间浪费和查询效率降低；难以应对节点间动态变化的负载，可能导致部分节点过载，而其他节点资源浪费；缺乏有效的查询优先级调度机制，导致关键查询的响应时间无法得到保障。形成了一个完整的、高效的、自适应的数据索引系统，为大型档案数据库提供了一个高效、均衡、自适应的数据索引方法。

附图说明

图1为本申请所述的一种针对大型档案数据库的快速数据索引方法流程图；

图2为本申请所述的一种针对大型档案数据库的快速数据索引方法示意图；

具体实施方式

本申请实施例通过提供一种针对大型档案数据库的快速数据索引方法，解决了现有技术没有采用高效预查询筛选机制，导致大量无效查询进入后续处理流程，增加了不必要的查询延迟和系统负载；没有对索引进行有效的压缩和分层存储，导致存储空间浪费和查询效率降低；难以应对节点间动态变化的负载，可能导致部分节点过载，而其他节点资源浪费；缺乏有效的查询优先级调度机制，导致关键查询的响应时间无法得到保障。

本申请实施例中的技术方案为解决上述问题，总体思路如下：

通过采用Bloom Filter结构，能够有效地筛选出不在数据库中的查询，从而避免了不必要的、耗时的查询，大大提高了查询效率；引入分层索引压缩技术，根据查询频率的长尾分布进行索引存储，既节省了存储空间，又确保了高频查询的快速响应；通过设计分布式节点的动态权重分配策略，能够根据每个节点的实时负载和性能，动态调整其权重，从而实现负载均衡，提高系统整体稳定性和响应速度；引入查询缓存机制，将常用的查询结果缓存起来，从而减少查询时间；同时，通过查询优先级调度算法，确保关键查询得到及时响应，进一步提高用户体验。采用基于日志的技术，只记录变化的部分，避免了重新压缩整个索引，从而提高了索引更新的效率；通过索引完整性验证技术，确保了在压缩和解压缩过程中数据的完整性，避免了因数据损坏导致的查询错误。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

参照附图1，本申请所述的一种针对大型档案数据库的快速数据索引方法包括以下步骤：

S100：创建Bloom Filter结构，进行预查询筛选；

在大型档案数据库中，为了实现高效的数据索引，特别是在高查询负载下，首先采用了Bloom Filter进行预查询筛选。Bloom Filter是一种概率性数据结构，用于快速判断一个元素是否属于一个集合。这种筛选方法的主要目的是减少无效查询，从而提高查询效率并减少不必要的数据检索。

具体的，创建一个有效的Bloom Filter结构，Bloom Filter由位数组和哈希函数组成：位数组是一个长度为m的数组，初始时所有位都设置为0；哈希函数是k个独立的哈希函数，每个函数都将集合中的任何元素映射到位数组的m个位置之一。m和k的选择基于预期的插入元素数量n和可接受的误报率，为了最小化误报率，通过下述公式来找到最优的k和m：

，

其中，是误报率。

在将一个元素添加到Bloom Filter中时，要将元素分别放入k个哈希函数中。每个哈希函数都会给一个位数组中的位置，将这些位置的值都设置为1。哈希函数为元素x计算出的位置为：

，

其中，是第i个哈希函数为元素x计算出的位置，/>和/>是两个独立的哈希函数。

快速判断一个元素是否可能在数据库中，即检查一个元素是否在Bloom Filter中时，将元素放入k个哈希函数中。如果任何一个哈希函数返回的位置在位数组中的值为0，那么该元素绝对不在集合中。如果所有哈希函数返回的位置在位数组中的值都为1，那么该元素可能在集合中。不同的元素可能被哈希到位数组的同一位置，因此，即使所有哈希函数返回的位置都为1，也不能确定该元素是否真的在集合中，只能说它“可能”在集合中。

在大型档案数据库中进行实际的磁盘或网络查询之前，先使用Bloom Filter作为第一级的查询筛选，检查元素是否可能在数据库中。这样可以避免许多不必要的、耗时的查询，从而大大提高查询效率。

在大型档案数据库中，为了实现高效的数据索引，特别是在高查询负载下，本发明采用了一种分层索引压缩技术，简称LIC。LIC考虑到查询频率的分布可能是长尾的，因此采用了改进的Zipf-Mandelbrot法则来描述查询频率：

，

其中，表示第j个索引项的查询频率，s、a和b是参数，C是归一化常数，确保所有频率的总和为1。这种分布将频繁查询的索引项存储在顶层，使用最小的压缩，而不常查询的索引项存储在底层，使用高度压缩。

但是，随着数据的变化，索引也需要更新。为了高效地更新索引，采用了一种基于日志的技术，称为增量索引更新技术。当索引更新时，增量索引更新技术只记录变化的部分，而不是重新压缩整个索引。考虑到索引更新可能是突发的，使用韦布尔分布来描述索引更新的频率：

，

其中，表示/>次更新的概率，/>和/>是韦布尔分布的参数。

为了确保压缩和解压缩过程中数据的完整性，采用了一种基于向量空间的技术，称为索引完整性验证技术。对于每个索引，索引完整性验证技术都会计算一个向量，并使用余弦相似度来比较压缩前和压缩后的向量：

其中，和/>分别为压缩前和压缩后的索引向量，/>、/>、/>和/>是为了稳定计算而添加的平滑参数。如果余弦相似度接近1，那么两个向量非常相似，说明数据完整性得到了保证。从而不仅可以有效地压缩索引，还可以确保压缩后的索引具有高查询效率、可以快速更新，并且数据完整性得到保证。

在分布式环境下，为了确保各个节点的查询负载均衡，设计了一个分布式节点的动态权重分配策略。根据每个节点的实时负载和性能，动态调整其权重，从而实现负载均衡，优化各节点负载，提高系统整体稳定性和响应速度。

具体的，每个节点都有其独特的处理能力和当前的负载情况。为了准确评估每个节点的负载，需要定义一个负载指标。这个指标是基于每个节点的请求到达率和服务率的函数。设节点r在时间t的请求到达率为和服务率为/>。我们定义节点r在时间t的负载为:

，

其中，是节点r在时间t的负载，/>。上述公式表示在最近的时间单位内，节点r接收的请求量与其处理的请求量之差。这是一个连续的时间窗口评估，它考虑了时间t之前的所有请求。

基于上述的负载评估，为每个节点分配一个权重。权重是基于节点的负载和其性能指标的函数。设节点r的性能指标为，这个性能指标可以是基于硬件配置、网络带宽等多种因素的综合评估。定义节点r的权重为:

，

其中，是节点r的权重，/>是一个很小的常数，用于避免分母为零。节点的权重与其性能指标成正比，与其负载成反比。为了确保所有节点的权重之和为1，需要对权重进行归一化:

，

其中，是节点的总数，/>，且/>。由此可知，请求被分配给节点的概率与节点的权重成正比。从而可以动态地为每个节点分配权重，实现查询负载均衡。不仅可以提高系统的响应速度，还可以提高系统的稳定性。

当查询请求到达节点时，首先检查查询缓存是否已经包含该查询的结果。查询缓存是一个动态维护的数据结构，它存储了最近执行的查询及其结果。为了决定哪些查询结果应该被缓存，引入了一个效益函数。这个函数基于查询的频率来查询在数据库中的执行时间。

设查询q的结果为，定义查询q的缓存效益为：

，

其中，是查询q的频率，是基于过去的查询历史来估计的；/>是从数据库中检索查询q的时间，是通过对数据库进行基准测试来估计的；/>是从缓存中检索任何查询的平均时间，是通过对缓存进行基准测试来估计的。

为了最大化总体缓存效益，需要选择缓存效益最大的查询进行缓存，通过以下公式实现：

，

其中，是指被选择用于缓存的查询，Q表示所有待处理的查询集合。通过选择缓存效益最大的查询进行缓存，可以减少重复查询的计算和检索时间，提高查询速度。

当查询请求到达节点时，如果检查有缓存的结果则直接返回；对于没有缓存的查询，设立查询优先级调度算法来决定查询的处理顺序。保证关键查询得到及时响应，提高用户体验。

具体的，设查询q的重要性为和紧急性为/>，在实际应用中，可能存在某些查询即使紧急性很高，但其重要性较低，为了确保这些查询不会过度占用资源，引入了一个新的参数/>，表示查询的权重。定义查询q的优先级为:

，

其中，和/>是权重参数，用于调整重要性和紧急性的相对重要性，这些参数可以通过实验或经验来确定；/>是查询q的权重参数。

为了确保优先级最高的查询首先得到响应，需要对所有查询按照其优先级进行排序，通过以下公式实现:

，

其中，是按照优先级排序后的查询集合，/>是一个排序操作，它根据中定义的优先级值对/>中的查询进行排序。

综上所述，便完成了本申请所述的一种针对大型档案数据库的快速数据索引方法。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：

效果调研：

本申请的技术方案能够有效解决现有技术没有采用高效预查询筛选机制，导致大量无效查询进入后续处理流程，增加了不必要的查询延迟和系统负载；没有对索引进行有效的压缩和分层存储，导致存储空间浪费和查询效率降低；难以应对节点间动态变化的负载，可能导致部分节点过载，而其他节点资源浪费；缺乏有效的查询优先级调度机制，导致关键查询的响应时间无法得到保障，并且，上述系统或方法经过了一系列的效果调研，通过验证，最终形成了一个完整的、高效的、自适应的数据索引系统，为大型档案数据库提供了一个高效、均衡、自适应的数据索引方法。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种针对大型档案数据库的快速数据索引方法，其特征在于，包括以下步骤：

S100：创建Bloom Filter结构，进行预查询筛选；

S400：选择缓存效益最大的查询进行缓存，当查询请求到达节点时，首先检查查询缓存是否已经包含所述查询的结果；所述查询缓存是动态维护的数据结构，存储了最近执行的查询及结果；引入效益函数，所述效益函数基于查询的频率来查询在数据库中的执行时间；

设查询q的结果为，定义查询q的缓存效益为：

，

其中，是查询q的频率；/>是从数据库中检索查询q的时间；/>是从缓存中检索任何查询的平均时间；

选择缓存效益最大的查询进行缓存，通过以下公式实现：

，

其中，是指被选择用于缓存的查询，Q表示所有待处理的查询集合；设立查询优先级调度算法对所有查询按照其优先级进行排序。

2.根据权利要求1所述的一种针对大型档案数据库的快速数据索引方法，其特征在于，所述S100，具体包括：

3.根据权利要求1所述的一种针对大型档案数据库的快速数据索引方法，其特征在于，所述S200，具体包括：

4.根据权利要求1所述的一种针对大型档案数据库的快速数据索引方法，其特征在于，所述S200，还包括：

5.根据权利要求1所述的一种针对大型档案数据库的快速数据索引方法，其特征在于，所述S300，具体包括：

6.根据权利要求5所述的一种针对大型档案数据库的快速数据索引方法，其特征在于，所述S300，还包括：

7.根据权利要求1所述的一种针对大型档案数据库的快速数据索引方法，其特征在于，所述S400，具体包括：

8.根据权利要求7所述的一种针对大型档案数据库的快速数据索引方法，其特征在于，所述S400，还包括：

9.根据权利要求1所述的一种针对大型档案数据库的快速数据索引方法，其特征在于，所述S400，还包括：