CN110389965B

CN110389965B - 一种多维度数据查询及缓存的优化方法

Info

Publication number: CN110389965B
Application number: CN201811450642.6A
Authority: CN
Inventors: 张路; 谢赟; 尹淑平
Original assignee: Shanghai Datatom Information Technology Co ltd
Current assignee: Shanghai Datatom Information Technology Co ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2023-03-14
Anticipated expiration: 2038-11-30
Also published as: CN110389965A

Abstract

本发明公开了一种多维度数据查询及缓存的优化方法，在查询模块中：根据输入的关键字，利用配对堆算法生成优先队列；根据优先队列不同的权重，在非关系型数据库集群中进行匹配；在缓存模块中：结合优先队列，构建不相交集合的数据结构。本发明能极大地提升搜索性能。

Description

一种多维度数据查询及缓存的优化方法

技术领域

本发明涉及大数据技术领域，尤其涉及多维度数据查询及缓存的优化方法。

背景技术

随着社会信息化的快速推进，智能硬件的不断发展，数据进入了海量倍增时代，各行业和个人数据量的需求增加，使得结构化和非结构化数据的数量日趋增大。是否能对海量的数据进行快速、有效的处理和分析，已经成为数据处理分析服务的重要考量依据。其中，公共安全领域随着大数据技术的深度应用，开启了新的纪元。通过有效地整合各类数据、构建多维分析模型等方式，提升了情报洞察、分析研判、侦查打击以及指挥管理的能力。但是，针对非结构化数据可视化领域的相关技术还未成熟，随着数据融合的不断深入，业务建模的不断整合，在公共安全方面基于可视化大数据的分析研判及数据动态化的需求变得更加迫切。

发明内容

本发明的目的在于提供一种多维度数据查询及缓存的优化方法，能极大地提升搜索性能。

实现上述目的的技术方案是：

一种多维度数据查询及缓存的优化方法，包括：

在查询模块中：

根据输入的关键字，利用配对堆(Paring Heap)算法生成优先队列；

根据优先队列不同的权重，在非关系型数据库集群中进行匹配；

在缓存模块中：

结合优先队列，构建不相交集合的数据结构。

优选的，根据关键字的使用频度设置优先队列各节点的权重。

优选的，不相交集合采用有根树来实现：有根树表示集合，树中的每个节点包含集合的一个成员，每棵树表示一个集合；每个树的根包含了代表，并且是它自己的父节点。

优选的，不相交集合的数据结构引入有按秩合并策略和路径压缩策略。

优选的，通过访问的历史记录，对优先队列的节点的权重变动设置。

本发明的有益效果是：本发明通过对多维度数据查询和缓存的优化，生成并利用优先队列，在应用层首先显示优先级高的数据查询结果。相比较LRU(Least recentlyused)策略而言，这种方案一定程度上弥补了LRU带来的缓存污染的问题。同时，引入“按秩合并”或者“路径压缩”策略，在后续的查询中，缓存中多维度数据的深度将大大减小，查询性能显著提升。

附图说明

图1是本发明中多维度数据查询优化的流程图；

图2是本发明中多维度数据缓存优化的流程图。

具体实施方式

下面将结合附图对本发明作进一步说明。

目前，在非结构化数据管理系统中，查询处理模块是其中一个重要的组成部分，针对非结构化数据的特性设计合理的查询处理框架和查询优化策略对于非结构数据的快速、有效访问极为重要。查询处理的主要操作包括选择操作、连接操作、投影操作、聚合函数、排序等。查询优化的方法包括基于代价估算的优化和基于启发式规则的优化等。使用的数据包括但不限于文本、图像、视频等数据类型，以及三维造型等非结构化数据。

对于基于LRU算法的缓存淘汰策略。由于LRU算法相对简单，代价相对小，在实际的应用中使用很多。对于查询频率高、关注度高的热点数据，将它们的历史记录进行缓存，然后根据历史访问记录来进行淘汰数据，其核心思想是“如果数据最近被访问过，那么将来被访问的几率也更高”。当存在热点数据时，LRU的效率很好，但偶发性的、周期性的批量操作会导致LRU命中率急剧下降，缓存污染情况比较严重。需要对查询和缓存进行优化。

请参阅图1和图2，本发明的多维度数据查询及缓存的优化方法，包括：

在查询模块中：

在进行多维度数据查询时，首先根据输入的关键字，利用配对堆算法生成优先队列，在原有的非关系型数据库集群中进行匹配的时候，根据优先队列不同的权重进行匹配，在应用层首先显示优先级高的数据查询结果。这样一定程度上弥补了LRU带来的缓存污染的问题。

配对堆是一个简单实用的min-heap结构(或者max-heap)，事实上它只维护了一棵树而已(这棵树有N个节点，每个节点都带有权值)。它的特性不是由它的结构决定的，而是由它的操作(插入，合并，减小一个关键字等)决定的。假设维护一个小根堆，对于这棵树而言，我们保证每个节点的子节点的权值都要大于等于这个节点的权值，那么最后这颗树的根，就是权值最大的点，大根堆则相反。之后，我们可以依赖关键字的使用频度结合人为设置各节点权重来维护这颗树。在根据一个关键字进行多维度数据查询时，根据对关键字的分析构建一棵树，返回不同权重节点的查询结果。

在之后的搜索中，可以通过访问的历史记录，来对这个优先队列的节点的权重变动设置从而进行维护。而这棵Paring Heap树在后续的缓存模块中也能发挥一定的作用。

在缓存模块中：

结合优先队列，构建不相交集合(disjoing-set data structure)的数据结构。

不相交集合的数据结构通常有如下操作：

1)MAKE_SET(x)：建立一个新的集合，其唯一成员就是x,所以其代表也就是自己。

2)UNION(x,y)：将包含x和y的动态集合合并为一个新的集合(即这两个集合的并集)。

3)FIND_SET(x)：返回一个指针，指向包含x的(唯一)集合的代表。

对于多维度数据，其结构十分复杂，不同维度下会存在不同的不相交的数据集合，在进行多个维度的表进行级联查询时，性能提升往往非常困难。这就需要用到不相交集合的数据结构，不相交集合的数据结构保持一组不相交的动态集合，每个集合通过一个代表来识别。对于实现一个不相交集合，一般用链表或森林(有根树)来实现，有根树的速度更快。用有根树来表示集合，树中的每个节点都包含集合的一个成员，每棵树都表示一个集合。其中，不相交森林中，每个成员仅指向其父节点。每个树的根包含了代表，并且是它自己的父节点。尽管采用了这种表示的直观算法并不比采用链表表示的算法更快，但是，通过引入两种启发式策略(“按秩合并”和“路径压缩”)，就可以获得渐进意义上最快的不相交集合的数据结构。

有了这种结构，根据搜索的历史记录、热点数据的变化来动态创建一个或多个缓存的数据集合，在级联查询非结构化的多维度数组时，缓存中多维度数据的深度将大大减小，查询性能显著提升。

以上实施例仅供说明本发明之用，而非对本发明的限制，有关技术领域的技术人员，在不脱离本发明的精神和范围的情况下，还可以作出各种变换或变型，因此所有等同的技术方案也应该属于本发明的范畴，应由各权利要求所限定。

Claims

1.一种多维度数据查询及缓存的优化方法，其特征在于，包括：

在查询模块中：

根据输入的关键字，利用配对堆算法生成优先队列；

在缓存模块中：

结合优先队列，构建不相交集合的数据结构；

根据关键字的使用频度设置优先队列各节点的权重；

不相交集合采用有根树来实现：有根树表示集合，树中的每个节点包含集合的一个成员，每棵树表示一个集合；每个树的根包含了代表，并且是它自己的父节点；

不相交集合的数据结构引入有按秩合并策略和路径压缩策略；

通过访问的历史记录，对优先队列的节点的权重变动设置。