CN110389965B - 一种多维度数据查询及缓存的优化方法 - Google Patents

一种多维度数据查询及缓存的优化方法 Download PDF

Info

Publication number
CN110389965B
CN110389965B CN201811450642.6A CN201811450642A CN110389965B CN 110389965 B CN110389965 B CN 110389965B CN 201811450642 A CN201811450642 A CN 201811450642A CN 110389965 B CN110389965 B CN 110389965B
Authority
CN
China
Prior art keywords
data
priority queue
tree
query
cache
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811450642.6A
Other languages
English (en)
Other versions
CN110389965A (zh
Inventor
张路
谢赟
尹淑平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Datatom Information Technology Co ltd
Original Assignee
Shanghai Datatom Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Datatom Information Technology Co ltd filed Critical Shanghai Datatom Information Technology Co ltd
Priority to CN201811450642.6A priority Critical patent/CN110389965B/zh
Publication of CN110389965A publication Critical patent/CN110389965A/zh
Application granted granted Critical
Publication of CN110389965B publication Critical patent/CN110389965B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多维度数据查询及缓存的优化方法,在查询模块中:根据输入的关键字,利用配对堆算法生成优先队列;根据优先队列不同的权重,在非关系型数据库集群中进行匹配;在缓存模块中:结合优先队列,构建不相交集合的数据结构。本发明能极大地提升搜索性能。

Description

一种多维度数据查询及缓存的优化方法
技术领域
本发明涉及大数据技术领域,尤其涉及多维度数据查询及缓存的优化方法。
背景技术
随着社会信息化的快速推进,智能硬件的不断发展,数据进入了海量倍增时代,各行业和个人数据量的需求增加,使得结构化和非结构化数据的数量日趋增大。是否能对海量的数据进行快速、有效的处理和分析,已经成为数据处理分析服务的重要考量依据。其中,公共安全领域随着大数据技术的深度应用,开启了新的纪元。通过有效地整合各类数据、构建多维分析模型等方式,提升了情报洞察、分析研判、侦查打击以及指挥管理的能力。但是,针对非结构化数据可视化领域的相关技术还未成熟,随着数据融合的不断深入,业务建模的不断整合,在公共安全方面基于可视化大数据的分析研判及数据动态化的需求变得更加迫切。
发明内容
本发明的目的在于提供一种多维度数据查询及缓存的优化方法,能极大地提升搜索性能。
实现上述目的的技术方案是:
一种多维度数据查询及缓存的优化方法,包括:
在查询模块中:
根据输入的关键字,利用配对堆(Paring Heap)算法生成优先队列;
根据优先队列不同的权重,在非关系型数据库集群中进行匹配;
在缓存模块中:
结合优先队列,构建不相交集合的数据结构。
优选的,根据关键字的使用频度设置优先队列各节点的权重。
优选的,不相交集合采用有根树来实现:有根树表示集合,树中的每个节点包含集合的一个成员,每棵树表示一个集合;每个树的根包含了代表,并且是它自己的父节点。
优选的,不相交集合的数据结构引入有按秩合并策略和路径压缩策略。
优选的,通过访问的历史记录,对优先队列的节点的权重变动设置。
本发明的有益效果是:本发明通过对多维度数据查询和缓存的优化,生成并利用优先队列,在应用层首先显示优先级高的数据查询结果。相比较LRU(Least recentlyused)策略而言,这种方案一定程度上弥补了LRU带来的缓存污染的问题。同时,引入“按秩合并”或者“路径压缩”策略,在后续的查询中,缓存中多维度数据的深度将大大减小,查询性能显著提升。
附图说明
图1是本发明中多维度数据查询优化的流程图;
图2是本发明中多维度数据缓存优化的流程图。
具体实施方式
下面将结合附图对本发明作进一步说明。
目前,在非结构化数据管理系统中,查询处理模块是其中一个重要的组成部分,针对非结构化数据的特性设计合理的查询处理框架和查询优化策略对于非结构数据的快速、有效访问极为重要。查询处理的主要操作包括选择操作、连接操作、投影操作、聚合函数、排序等。查询优化的方法包括基于代价估算的优化和基于启发式规则的优化等。使用的数据包括但不限于文本、图像、视频等数据类型,以及三维造型等非结构化数据。
对于基于LRU算法的缓存淘汰策略。由于LRU算法相对简单,代价相对小,在实际的应用中使用很多。对于查询频率高、关注度高的热点数据,将它们的历史记录进行缓存,然后根据历史访问记录来进行淘汰数据,其核心思想是“如果数据最近被访问过,那么将来被访问的几率也更高”。当存在热点数据时,LRU的效率很好,但偶发性的、周期性的批量操作会导致LRU命中率急剧下降,缓存污染情况比较严重。需要对查询和缓存进行优化。
请参阅图1和图2,本发明的多维度数据查询及缓存的优化方法,包括:
在查询模块中:
在进行多维度数据查询时,首先根据输入的关键字,利用配对堆算法生成优先队列,在原有的非关系型数据库集群中进行匹配的时候,根据优先队列不同的权重进行匹配,在应用层首先显示优先级高的数据查询结果。这样一定程度上弥补了LRU带来的缓存污染的问题。
配对堆是一个简单实用的min-heap结构(或者max-heap),事实上它只维护了一棵树而已(这棵树有N个节点,每个节点都带有权值)。它的特性不是由它的结构决定的,而是由它的操作(插入,合并,减小一个关键字等)决定的。假设维护一个小根堆,对于这棵树而言,我们保证每个节点的子节点的权值都要大于等于这个节点的权值,那么最后这颗树的根,就是权值最大的点,大根堆则相反。之后,我们可以依赖关键字的使用频度结合人为设置各节点权重来维护这颗树。在根据一个关键字进行多维度数据查询时,根据对关键字的分析构建一棵树,返回不同权重节点的查询结果。
在之后的搜索中,可以通过访问的历史记录,来对这个优先队列的节点的权重变动设置从而进行维护。而这棵Paring Heap树在后续的缓存模块中也能发挥一定的作用。
在缓存模块中:
结合优先队列,构建不相交集合(disjoing-set data structure)的数据结构。
不相交集合的数据结构通常有如下操作:
1)MAKE_SET(x):建立一个新的集合,其唯一成员就是x,所以其代表也就是自己。
2)UNION(x,y):将包含x和y的动态集合合并为一个新的集合(即这两个集合的并集)。
3)FIND_SET(x):返回一个指针,指向包含x的(唯一)集合的代表。
对于多维度数据,其结构十分复杂,不同维度下会存在不同的不相交的数据集合,在进行多个维度的表进行级联查询时,性能提升往往非常困难。这就需要用到不相交集合的数据结构,不相交集合的数据结构保持一组不相交的动态集合,每个集合通过一个代表来识别。对于实现一个不相交集合,一般用链表或森林(有根树)来实现,有根树的速度更快。用有根树来表示集合,树中的每个节点都包含集合的一个成员,每棵树都表示一个集合。其中,不相交森林中,每个成员仅指向其父节点。每个树的根包含了代表,并且是它自己的父节点。尽管采用了这种表示的直观算法并不比采用链表表示的算法更快,但是,通过引入两种启发式策略(“按秩合并”和“路径压缩”),就可以获得渐进意义上最快的不相交集合的数据结构。
有了这种结构,根据搜索的历史记录、热点数据的变化来动态创建一个或多个缓存的数据集合,在级联查询非结构化的多维度数组时,缓存中多维度数据的深度将大大减小,查询性能显著提升。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。

Claims (1)

1.一种多维度数据查询及缓存的优化方法,其特征在于,包括:
在查询模块中:
根据输入的关键字,利用配对堆算法生成优先队列;
根据优先队列不同的权重,在非关系型数据库集群中进行匹配;
在缓存模块中:
结合优先队列,构建不相交集合的数据结构;
根据关键字的使用频度设置优先队列各节点的权重;
不相交集合采用有根树来实现:有根树表示集合,树中的每个节点包含集合的一个成员,每棵树表示一个集合;每个树的根包含了代表,并且是它自己的父节点;
不相交集合的数据结构引入有按秩合并策略和路径压缩策略;
通过访问的历史记录,对优先队列的节点的权重变动设置。
CN201811450642.6A 2018-11-30 2018-11-30 一种多维度数据查询及缓存的优化方法 Active CN110389965B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811450642.6A CN110389965B (zh) 2018-11-30 2018-11-30 一种多维度数据查询及缓存的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811450642.6A CN110389965B (zh) 2018-11-30 2018-11-30 一种多维度数据查询及缓存的优化方法

Publications (2)

Publication Number Publication Date
CN110389965A CN110389965A (zh) 2019-10-29
CN110389965B true CN110389965B (zh) 2023-03-14

Family

ID=68284894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811450642.6A Active CN110389965B (zh) 2018-11-30 2018-11-30 一种多维度数据查询及缓存的优化方法

Country Status (1)

Country Link
CN (1) CN110389965B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2102325A1 (en) * 1992-11-04 1994-05-05 Edwin R. Addison Method for resolution of natural-language queries against full-text databases
US6141655A (en) * 1997-09-23 2000-10-31 At&T Corp Method and apparatus for optimizing and structuring data by designing a cube forest data structure for hierarchically split cube forest template
CN106294772A (zh) * 2016-08-11 2017-01-04 电子科技大学 分布式内存列式数据库的缓存管理方法
CN107391636A (zh) * 2017-07-10 2017-11-24 江苏省现代企业信息化应用支撑软件工程技术研发中心 top‑m反近邻空间关键字查询方法
CN107491544A (zh) * 2017-08-25 2017-12-19 上海德拓信息技术股份有限公司 一种增强非关系型数据库分析能力的数据处理平台
CN107633068A (zh) * 2017-09-22 2018-01-26 深圳大学 滑动窗口下基于位置top‑k关键词查询的快速索引方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2102325A1 (en) * 1992-11-04 1994-05-05 Edwin R. Addison Method for resolution of natural-language queries against full-text databases
US6141655A (en) * 1997-09-23 2000-10-31 At&T Corp Method and apparatus for optimizing and structuring data by designing a cube forest data structure for hierarchically split cube forest template
CN106294772A (zh) * 2016-08-11 2017-01-04 电子科技大学 分布式内存列式数据库的缓存管理方法
CN107391636A (zh) * 2017-07-10 2017-11-24 江苏省现代企业信息化应用支撑软件工程技术研发中心 top‑m反近邻空间关键字查询方法
CN107491544A (zh) * 2017-08-25 2017-12-19 上海德拓信息技术股份有限公司 一种增强非关系型数据库分析能力的数据处理平台
CN107633068A (zh) * 2017-09-22 2018-01-26 深圳大学 滑动窗口下基于位置top‑k关键词查询的快速索引方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于TwemProxy的HBase索引缓存方案;瞿龙俊等;《信息技术》;20171025(第10期);全文 *
关系数据库关键字查询方法研究;崔婉秋等;《小型微型计算机系统》;20161215(第12期);全文 *

Also Published As

Publication number Publication date
CN110389965A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
Ali et al. Comparison between SQL and NoSQL databases and their relationship with big data analytics
US20120072412A1 (en) Evaluating execution plan changes after a wakeup threshold time
CN108376143B (zh) 一种新型的olap预计算系统及生成预计算结果的方法
Jestes et al. Semantics of ranking queries for probabilistic data
US9218394B2 (en) Reading rows from memory prior to reading rows from secondary storage
KR20160053933A (ko) 스마트 검색 정제 기법
Lian et al. Keyword search over probabilistic RDF graphs
Xu et al. Scalable continual top-k keyword search in relational databases
CN114218211A (zh) 数据处理系统、方法、计算机设备以及可读存储介质
Zhou et al. The survey of large-scale query classification
CN110389965B (zh) 一种多维度数据查询及缓存的优化方法
Yang et al. Top k probabilistic skyline queries on uncertain data
Du et al. An overview of dynamic data mining
Khade et al. Frequent set mining for streaming mixed and large data
CN114254014A (zh) 一种业务数据的展示方法、装置、设备及存储介质
Wang et al. RODA: A fast outlier detection algorithm supporting multi-queries
Guo et al. Summarizing RDF graphs using node importance and query history
Faber et al. Adaptive personalized knowledge graph summarization
Rslan et al. An efficient hybridized index technique for moving object database
CN112597268B (zh) 一种面向云环境密文检索效率优化的检索过滤阈值选取方法
Manta-Caro et al. Advances in real-time indexing models and techniques for the web of things
Xu et al. Efficient continual top-k keyword search in relational databases
Tourad et al. A novel indexing algorithm for content-based Publish/Subscribe systems in a Big Data environment
Chen et al. Vertical-Intersection-Based Top-Down Algorithm for Frequent Itemset Mining on MapReduce
He et al. Enterprise human resources information mining based on improved Apriori algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant