CN110147372A - 一种面向htap的分布式数据库智能混合存储方法 - Google Patents

一种面向htap的分布式数据库智能混合存储方法 Download PDF

Info

Publication number
CN110147372A
CN110147372A CN201910424312.8A CN201910424312A CN110147372A CN 110147372 A CN110147372 A CN 110147372A CN 201910424312 A CN201910424312 A CN 201910424312A CN 110147372 A CN110147372 A CN 110147372A
Authority
CN
China
Prior art keywords
data
cluster
layout
htap
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910424312.8A
Other languages
English (en)
Other versions
CN110147372B (zh
Inventor
段翰聪
刘长红
姚入榕
闵革勇
梁戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910424312.8A priority Critical patent/CN110147372B/zh
Publication of CN110147372A publication Critical patent/CN110147372A/zh
Application granted granted Critical
Publication of CN110147372B publication Critical patent/CN110147372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向HTAP的分布式数据库智能混合存储方法,该包括:通过数据导入系统获取数据源中的数据,并存储于HTAP数据库的存储引擎中,其中,存储引擎由多个存储节点组成,每个存储节点的数据以列族的数据组织格式进行存储;中心节点根据历史OLAP、OLTP的工作负载情况,采用基于密度的聚类分区算法对存储引擎中的数据布局进行优化重组分析,进而获得最优数据布局。本发明以列族的方式对HTAP数据库中的数据进行组织,并根据中心节点计算出的最优存储布局动态地调整列族中的数据,而最优的存储布局是通过基于密度的聚类算法通过聚类结果得出使得具有相当访问频率的列属于同一列族,即经常被访问的列属于同一列族。

Description

一种面向HTAP的分布式数据库智能混合存储方法
技术领域
本发明涉及在HTAP的业务场景下,通过机器学习分析历史业务和最近业务的工作负载情况,动态地对存储引擎数据布局重组的技术领域,具体涉及一种面向HTAP的分布式数据库智能混合存储方法。
背景技术
HTAP数据库是一款同时支持联机事务处理(OLTP)和联机分析处理(OLAP)两种业务类型的分布式数据库产品,由于OLAP和OLTP系统具有非常不同的特性,存储引擎中数据以行的形式存储对OLTP友好,以列的形式存储对OLAP更友好。但如果同时更好地支持高效查询的OLAP和实时性要求高的OLTP,那么存储引擎的数据组织格式便起着至关重要的作用。
目前,peloton的存储使用tile的数据组织形式,即一个表中由多个tile group组成,一个tile group由多个physical tile组成,一个physical tile类似表的水平/垂直分区。peloton的数据库系统属于单机系统,将数据全部放到一个存储节点上,然后只对这一个存储节点的数据进行布局的优化及重组。但这种数据组织形式存在一些劣势:单机系统的容量和吞吐量都很小、性能低,无法应对越来越大的业务量,无论是计算能力还是存储能力,都不能较好地支持大数据时代的HTAP业务。
而应用于HTAP数据存储上,peloton现有使用的k-means聚类算法对统计的数据进行聚类分析的分区算法存在一些劣势:1、需要调参:聚类数k、旧样本的权重w,(1)、在计算之前需要先对聚类数k进行初始化,但是k值的选取很不好把握,而且k值的选取会直接影响到聚类效果,需要对k进行调参,除此之外,强行输入固定的聚类簇数必然影响真实的聚类形态分布;(2)、需要对旧样本的权重w进行调参,且k和w相互影响,需要联合调参。2、由于聚类的簇数在最开始就已经确定,即表中tile group的数量就已确定,但实际上随着时间的推移,HTAP工作负载不断的变化,tile group数有时较大会比较好,但是有时候tile group数较小对HTAP会更友好。3、不适用于凸样本集,因为凸的数据集比较难收敛。4、每个簇中心初始值的选取会影响最后的结果,最后得到的结果只是局部最优而非全局最优,而且该算法不易控制,迭代次数可能较多。
发明内容
本发明所要解决的技术问题是:针对peloton现有的分区算法的不足,且peloton是单机系统。单机系统的容量和吞吐量都很小、性能低,无法应对越来越大的业务量,无论是计算能力还是存储能力,都不能较好地支持大数据时代的HTAP业务;而应用于HTAP数据存储上的在线k-means聚类算法对统计的数据进行聚类分析的处理算法存在一些劣势,需要调参聚类数k、旧样本的权重w,而k和w又相互影响,而聚类的簇数在最开始就已经确定,即表中tile group的数量就已确定,但实际上随着时间的推移,HTAP工作负载不断的变化,tile group数会受影响,另外,收敛性差、只能寻找到局部最优解的问题。
本发明提供了解决上述问题的一种面向HTAP的分布式数据库智能混合存储方法,给出一种基于分布式环境下的存储引擎节点数据布局的分区算法,面向HTAP的存储引擎数据的组织方式以及面向HTAP的分布式数据库框架,进而更友好地支持HTAP未来的工作负载,提升数据库性能。
本发明通过下述技术方案实现:
一种面向HTAP的分布式数据库智能混合存储方法,存储方法包括:
通过数据导入系统获取数据源中的数据,并存储于HTAP数据库的存储引擎中,其中,存储引擎由多个存储节点组成,每个存储节点的数据以列族形式进行数据存储;
中心节点根据OLAP、OLTP业务请求,采用基于密度的聚类分区算法对存储引擎中的数据布局进行优化重组分析,进而获得最优数据布局。
工作原理是:基于分布式的计算能力和存储能力都很强,非常适用于大数据时代的HTAP业务,能很好地支持HTAP的应用场景。本发明以列族的方式对HTAP数据库中的数据进行组织,并根据中心节点计算出的最优存储布局动态地调整列族中的数据,而最优的存储布局是通过基于密度的聚类算法通过聚类结果得出,使得具有相当访问频率的列在新布局中属于同一列族,即经常被访问的列属于同一列族,在未来以更好地支持高效查询的OLAP和实时性要求高的OLTP的工作负载。列族是一种界于行存和列存之间的一种存储格式,非常灵活,对OLTP和OLAP都比较友好支持,实现热数据(面向OLTP的行式存储)与冷数据(面向OLAP的列式存储)相互转换的桥梁;但又不同于Bigtable的列族组织方式,Bigtable一个列族的数据类型往往是一样的,且列族一旦创建就几乎不会改变。同时,基于密度的聚类分区算法,无需确定最终聚类结果的簇数,会根据历史查询样本和最近历史查询样本的数据分布情况合理地生成簇的个数,也就是存储节点中列族的个数;还能发现数据流中任意的类簇,能对数据流中所有的查询样本进行聚类分析,并且采用衰减窗口对不同时间的查询样本进行加权,来控制历史查询样本的权重,进而控制最后的聚类结果是偏向于旧查询样本还是最近的查询样本。
本发明给出了一种基于分布式环境下的存储引擎节点数据布局的分区算法,面向HTAP的存储引擎数据的组织方式以及面向HTAP的分布式数据库框架,进而更友好地支持HTAP未来的工作负载,提升数据库性能。
进一步地,每个存储节点的数据以列族形式进行数据组织,其中,数据布局因素包括列族的数量、列族中列的数量。
进一步地,所述基于密度的聚类分区算法DenStream采用两阶段处理框架,包括在线阶段和离线阶段,根据历史查询样本和最近历史查询样本的数据分布情况生成簇的个数,簇的个数作为每个存储节点的列族数量,并采用衰减窗口对不同时间的查询样本进行加权,来控制历史查询样本的权重,进而控制最后的聚类结果是偏向于旧查询样本还是最近的查询样本,并获得最优数据布局的聚类结果。
其中:基于密度的聚类分区算法DenStream,通过引入核心微簇CMC、潜在核心微簇PMC、离群微簇OMC和时间衰减函数f(t)=2来对不同时间的数据点的重要性进行加权,对微簇micro-cluster也加入了时间权重;其中:对于历史久远的样本数据,在计算类中心的时候,采用衰减函数进行加权,λ用于调节衰减速度,值越大,表示对历史的数据的权重越低。在线阶段,同时维护潜在核心微簇PMC和离群微簇OMC两个队列,根据在两个队列的权重变化来对微簇的潜在核心和离群两个角色进行调整变化;离线阶段,设置聚类的时间间隔,及重新计算存储引擎数据布局的时间间隔,当达到设置好的时间,就重新聚类生成达到最优数据布局的聚类结果。DenStream算法先忽略密度不足够的两类微簇,然后使用基于密度空间的聚类算法DBSCAN,对当前的潜在核心微簇PMC和离群微簇OMC进行处理,得到聚类结果并返回。
具体地,中心节点根据OLAP、OLTP业务请求,采用基于密度的聚类分区算法DenStream对存储引擎中的数据布局进行优化重组分析,使得具有相当访问频率的列在新布局中属于同一列族,即经常被访问的列属于同一列族,进而获得最优数据布局,具体包括:
客户端将OLAP、OLTP业务请求发到中心节点,中心节点统计select子句、where子句、insert、update访问的属性信息,并将这些属性信息以数字向量的方式存储,并将select子句和where子句中的属性信息作为DenStream算法的参数进行DenStream在线阶段的聚类运算;其中,数字向量的长度等于存储引擎表中所有属性的数量;
中心节点从该数据库系统启动开始便维护一个计时器,用来维持存储引擎中数据布局重组的时间,当达到重新计算存储引擎数据布局的时间时,DenStream算法便执行离线阶段的离线计算,采用基于密度空间的聚类算法DBSCAN,对当前的潜在核心微簇PMC和离群微簇OMC进行处理,得到聚类结果;
根据中心节点统计的insert、update的访问属性信息,将生成的聚类的簇按照权重进行降序排序,然后使用贪心算法将数据库表中的每个列都添加到离簇中心最近的簇,直到数据库表中的每个列都属于某个簇为止,对应地,数据库表中的每个列都会被划分到某个列族中;其中,一个簇代表存储节点中数据的一个列族;
中心节点将计算好的布局信息发给每个存储节点;
存储引擎中的各个存储节点根据收到的最优数据布局信息以增量的方式将原布局中的数据拷到新布局中,当原布局中的数据不会再使用的时候便清除它所占用的空间。
进一步地,通过数据导入系统获取数据源中的数据,在数据导入系统中将从外部数据源读取的数据进行横切,即根据行号划分为多个数据分片,然后将横切之后的各个数据分片发往各个存储节点,尽量确保存储引擎节点间负载均衡。
本发明具有如下的优点和有益效果:
1、本发明提出了面向HTAP的数据组织格式,以列族的方式进行组织,并根据中心节点计算出的最优存储布局动态地调整列族中的数据;其中,列族数及列族中列的数量都可能会做相应改变;
2、本发明提出了在HTAP的应用场景下,一种分布式环境下的基于密度的聚类算法,通过该算法计算出最优的存储布局,以更好地支持未来高效查询的OLAP和实时性要求高的OLTP的工作负载,进而提升数据库性能;
3、本发明以列族的方式对HTAP数据库中的数据进行组织,并根据中心节点计算出的最优存储布局动态地调整列族中的数据,而最优的存储布局是通过基于密度的聚类算法通过聚类结果得出使得具有相当访问频率的列属于同一列族,即经常被访问的列属于同一列族,以更好地支持高效查询的OLAP和实时性要求高的OLTP的工作负载。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,一种面向HTAP的分布式数据库智能混合存储方法,存储方法包括:
通过数据导入系统获取数据源中的数据,并存储于HTAP数据库的存储引擎中,其中,存储引擎由多个存储节点组成,每个存储节点的数据以列族形式进行数据存储;
中心节点根据OLAP、OLTP业务请求,采用基于密度的聚类分区算法对存储引擎中的数据布局进行优化重组分析,随着数据布局的不断重组,列族的数量、列族里列的数量根据分区算法得出的最优布局不断地在改变,进而获得最优数据布局。
如图1所示为系统架构,本发明方法具体流程如下:
(1)数据导入系统读取数据源中的数据,并将读取到的数据横切,然后发往各个存储引擎的存储节点。在发往存储引擎节点的过程中,应使每个存储节点都有数据库表的部分数据,且确保存储引擎节点间负载均衡。
(2)客户端将OLAP、OLTP业务请求发到中心节点,中心节点统计select子句、where子句、insert、update访问的属性信息,并将这些属性信息以数字向量的方式存储,然后将select子句和where子句中的属性信息作为基于密度的聚类分区算法的参数进行在线阶段的聚类运算;其中,数字向量的长度等于存储引擎表中所有属性的数量。
(3)中心节点从数据库系统启动开始便维护一个计时器,用来维持存储引擎中数据布局重组的时间。当达到重新计算存储引擎数据布局的时间时,基于密度的聚类分区算法便开始第二阶段(离线阶段)的离线计算,使用基于密度空间的聚类算法DBSCAN算法,对当前的潜在核心微簇PMC和离群微簇OMC进行处理,得到聚类结果。
(4)根据中心节点统计的insert、update的访问属性信息,将生成的聚类的簇按照权重进行降序排序,然后使用贪心算法将数据库表中的每个列都添加到离簇中心最近的簇。直到最后数据库表中的每个列都属于某个簇。一个簇代表存储节点中数据的一个列族。也就是最后数据库表中的每个列都会被划分到某个列族中。
(5)中心节点将计算好的布局信息发给每个存储节点。
(6)存储引擎中的各个存储节点根据收到的最优数据布局信息以增量的方式将原布局中的数据拷到新布局中,当原布局中的数据不会再使用的时候便清除它所占用的空间。
本发明支持HTAP的业务场景下,通过机器学习分析历史业务和最近业务的工作负载情况,动态地实现对存储引擎数据布局重组,本发明以列族的方式对HTAP数据库中的数据进行组织,并根据中心节点计算出的最优存储布局动态地调整列族中的数据,最优的数据存储布局通过DenStream聚类算法的聚类结果得到,使得具有相当访问频率的属性属于同一列族,即经常被访问的列属于同一列族,以更好地支持未来高效查询的OLAP和实时性要求高的OLTP的工作负载。本发明给出的基于分布式环境下的存储引擎节点数据布局的分区算法,面向HTAP的存储引擎数据的组织方式以及面向HTAP的分布式数据库框架,进而更友好地支持HTAP未来的工作负载,提升数据库性能。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种面向HTAP的分布式数据库智能混合存储方法,其特征在于,存储方法包括:
通过数据导入系统获取数据源中的数据,并存储于HTAP数据库的存储引擎中,其中,存储引擎由多个存储节点组成,每个存储节点的数据以列族形式进行数据存储;
中心节点根据OLAP、OLTP业务请求,采用基于密度的聚类分区算法对存储引擎中的数据布局进行优化重组分析,进而获得最优数据布局。
2.根据权利要求1所述的一种面向HTAP的分布式数据库智能混合存储方法,其特征在于,每个存储节点的数据以列族形式进行数据组织,其中,数据布局因素包括列族的数量、列族中列的数量。
3.根据权利要求2所述的一种面向HTAP的分布式数据库智能混合存储方法,其特征在于,所述基于密度的聚类分区算法DenStream采用两阶段处理框架,包括在线阶段和离线阶段,根据历史查询样本和最近历史查询样本的数据分布情况生成簇的个数,簇的个数作为每个存储节点的列族数量,并采用衰减窗口对不同时间的查询样本进行加权,来控制历史查询样本的权重,进而控制最后的聚类结果是偏向于旧查询样本还是最近的查询样本,并获得最优数据布局的聚类结果。
4.根据权利要求3所述的一种面向HTAP的分布式数据库智能混合存储方法,其特征在于,中心节点根据OLAP、OLTP业务请求,采用基于密度的聚类分区算法DenStream对存储引擎中的数据布局进行优化重组分析,进而获得最优数据布局,具体包括:
客户端将OLAP、OLTP业务请求发到中心节点,中心节点统计select子句、where子句、insert、update访问的属性信息,并将这些属性信息以数字向量的方式存储,并将select子句和where子句中的属性信息作为DenStream算法的参数进行DenStream在线阶段的聚类运算;其中,数字向量的长度等于存储引擎表中属性的数量;
中心节点从数据库系统启动开始便维护一个计时器,用来维持存储引擎中数据布局重组的时间,当达到重新计算存储引擎数据布局的时间时,DenStream算法便执行离线阶段的离线计算,采用基于密度空间的聚类算法DBSCAN,对当前的潜在核心微簇PMC和离群微簇OMC进行处理,得到聚类结果;
根据中心节点统计的insert、update的访问属性信息,将生成的聚类的簇按照权重进行降序排序,然后使用贪心算法将表中的每个列都添加到离簇中心最近的簇,直到表中的每个列都属于某个簇为止,对应地,表中的每个列都会被划分到某个列族中;其中,一个簇代表存储节点中数据的一个列族;
中心节点将计算好的布局信息发给每个存储节点;
存储引擎中的各个存储节点根据收到的最优数据布局信息以增量的方式将原布局中的数据拷到新布局中,当原布局中的数据不会再使用的时候便清除它所占用的空间。
5.根据权利要求1所述的一种面向HTAP的分布式数据库智能混合存储方法,其特征在于,通过数据导入系统获取数据源中的数据,并在数据导入系统中对读取到的数据进行横切,并将将横切后的数据以轮询的方式发往各个存储节点。
CN201910424312.8A 2019-05-21 2019-05-21 一种面向htap的分布式数据库智能混合存储方法 Active CN110147372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910424312.8A CN110147372B (zh) 2019-05-21 2019-05-21 一种面向htap的分布式数据库智能混合存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910424312.8A CN110147372B (zh) 2019-05-21 2019-05-21 一种面向htap的分布式数据库智能混合存储方法

Publications (2)

Publication Number Publication Date
CN110147372A true CN110147372A (zh) 2019-08-20
CN110147372B CN110147372B (zh) 2022-12-23

Family

ID=67592492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910424312.8A Active CN110147372B (zh) 2019-05-21 2019-05-21 一种面向htap的分布式数据库智能混合存储方法

Country Status (1)

Country Link
CN (1) CN110147372B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825791A (zh) * 2019-11-14 2020-02-21 北京京航计算通讯研究所 基于分布式系统的数据访问性能优化系统
CN110825816A (zh) * 2020-01-09 2020-02-21 四川新网银行股份有限公司 对分片数据库数据采集的系统和方法
CN110895451A (zh) * 2019-11-14 2020-03-20 北京京航计算通讯研究所 基于分布式系统的数据访问性能优化方法
CN111046074A (zh) * 2019-12-13 2020-04-21 北京百度网讯科技有限公司 流式数据处理方法、装置、设备和介质
CN111858759A (zh) * 2020-07-08 2020-10-30 平凯星辰(北京)科技有限公司 一种基于共识算法的htap数据库
CN111913987A (zh) * 2020-08-10 2020-11-10 东北大学 一种基于维组-时空-概率过滤的分布式查询系统及方法
CN115438046A (zh) * 2022-08-25 2022-12-06 北京万里开源软件有限公司 一种基于htap数据库的分布式储存方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6470330B1 (en) * 1998-11-05 2002-10-22 Sybase, Inc. Database system with methods for estimation and usage of index page cluster ratio (IPCR) and data page cluster ratio (DPCR)
US6549907B1 (en) * 1999-04-22 2003-04-15 Microsoft Corporation Multi-dimensional database and data cube compression for aggregate query support on numeric dimensions
US6633882B1 (en) * 2000-06-29 2003-10-14 Microsoft Corporation Multi-dimensional database record compression utilizing optimized cluster models
US20030195898A1 (en) * 2002-04-15 2003-10-16 International Business Machines Corporation Multidimensional disk clustering scheme for query processing and maintenance in relational databases
US20090106210A1 (en) * 2006-09-18 2009-04-23 Infobright, Inc. Methods and systems for database organization
US20090240663A1 (en) * 2007-09-21 2009-09-24 Hasso-Plattner-Institute Fur Softwaresystemtechnik Gmbh ETL-Less Zero-Redundancy System and Method for Reporting OLTP Data
CN102411634A (zh) * 2011-12-27 2012-04-11 北京人大金仓信息技术股份有限公司 一种提升嵌入式数据库实时性的数据存储方法
CN103109292A (zh) * 2010-09-24 2013-05-15 日立数据系统有限公司 在容错数据库管理系统中聚集查询结果的系统和方法
CN103440245A (zh) * 2013-07-15 2013-12-11 西北工业大学 数据库系统的行列混合存储方法
CN104516967A (zh) * 2014-12-25 2015-04-15 国家电网公司 一种电力系统海量数据管理系统及其使用方法
CN108319714A (zh) * 2018-02-08 2018-07-24 中国人民公安大学 一种基于HBase的列存储压缩方法
CN108334565A (zh) * 2018-01-15 2018-07-27 贵州易鲸捷信息技术有限公司 一种数据混合存储结构、数据存储查询方法、终端及介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6470330B1 (en) * 1998-11-05 2002-10-22 Sybase, Inc. Database system with methods for estimation and usage of index page cluster ratio (IPCR) and data page cluster ratio (DPCR)
US6549907B1 (en) * 1999-04-22 2003-04-15 Microsoft Corporation Multi-dimensional database and data cube compression for aggregate query support on numeric dimensions
US6633882B1 (en) * 2000-06-29 2003-10-14 Microsoft Corporation Multi-dimensional database record compression utilizing optimized cluster models
US20030195898A1 (en) * 2002-04-15 2003-10-16 International Business Machines Corporation Multidimensional disk clustering scheme for query processing and maintenance in relational databases
US20090106210A1 (en) * 2006-09-18 2009-04-23 Infobright, Inc. Methods and systems for database organization
CN101828182A (zh) * 2007-09-21 2010-09-08 哈索-普拉特纳-研究所软件系统有限责任公司 报告oltp数据的无etl零冗余系统和方法
US20090240663A1 (en) * 2007-09-21 2009-09-24 Hasso-Plattner-Institute Fur Softwaresystemtechnik Gmbh ETL-Less Zero-Redundancy System and Method for Reporting OLTP Data
CN103109292A (zh) * 2010-09-24 2013-05-15 日立数据系统有限公司 在容错数据库管理系统中聚集查询结果的系统和方法
CN102411634A (zh) * 2011-12-27 2012-04-11 北京人大金仓信息技术股份有限公司 一种提升嵌入式数据库实时性的数据存储方法
CN103440245A (zh) * 2013-07-15 2013-12-11 西北工业大学 数据库系统的行列混合存储方法
CN104516967A (zh) * 2014-12-25 2015-04-15 国家电网公司 一种电力系统海量数据管理系统及其使用方法
CN108334565A (zh) * 2018-01-15 2018-07-27 贵州易鲸捷信息技术有限公司 一种数据混合存储结构、数据存储查询方法、终端及介质
CN108319714A (zh) * 2018-02-08 2018-07-24 中国人民公安大学 一种基于HBase的列存储压缩方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MARTIN BOISSIER ET AL.: "HYBRID DATA LAYOUTS FOR TIERED HTAP DATABASES WITH PARETO-OPTIMAIL DATA PLACEMENTS", 《2018 IEEE 34TH INTERNATIONAL CONFERENCE ON DATA ENGINEERING》 *
徐述 等: "大数据应用下的新型分布式数据库NEWSQL", 《数字技术与应用》 *
樊超 等: "利用优化的DENSTREAM算法进行空间数据流聚类", 《测绘与空间地理信息》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825791A (zh) * 2019-11-14 2020-02-21 北京京航计算通讯研究所 基于分布式系统的数据访问性能优化系统
CN110895451A (zh) * 2019-11-14 2020-03-20 北京京航计算通讯研究所 基于分布式系统的数据访问性能优化方法
CN111046074A (zh) * 2019-12-13 2020-04-21 北京百度网讯科技有限公司 流式数据处理方法、装置、设备和介质
CN111046074B (zh) * 2019-12-13 2023-09-01 北京百度网讯科技有限公司 流式数据处理方法、装置、设备和介质
CN110825816A (zh) * 2020-01-09 2020-02-21 四川新网银行股份有限公司 对分片数据库数据采集的系统和方法
CN111858759A (zh) * 2020-07-08 2020-10-30 平凯星辰(北京)科技有限公司 一种基于共识算法的htap数据库
WO2022007339A1 (zh) * 2020-07-08 2022-01-13 平凯星辰(北京)科技有限公司 一种基于共识算法的htap数据库
CN111913987A (zh) * 2020-08-10 2020-11-10 东北大学 一种基于维组-时空-概率过滤的分布式查询系统及方法
CN111913987B (zh) * 2020-08-10 2023-08-04 东北大学 一种基于维组-时空-概率过滤的分布式查询系统及方法
CN115438046A (zh) * 2022-08-25 2022-12-06 北京万里开源软件有限公司 一种基于htap数据库的分布式储存方法

Also Published As

Publication number Publication date
CN110147372B (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
CN110147372A (zh) 一种面向htap的分布式数据库智能混合存储方法
CN106528773B (zh) 一种基于Spark平台支持空间数据管理的图计算系统及方法
CN100399301C (zh) 大容量存储设备和用于动态管理大容量存储设备的方法
CN102930062A (zh) 一种数据库快速水平扩展的方法
CN103345514A (zh) 大数据环境下的流式数据处理方法
CN109933631A (zh) 基于Infiniband网络的分布式并行数据库系统及数据处理方法
CN102521334A (zh) 一种基于分类特性和平衡二叉树的数据存储、查询方法
CN105975345B (zh) 一种基于分布式内存的视频帧数据动态均衡存储管理方法
EP3198494B1 (en) Communication for efficient re-partitioning of data
CN104376109B (zh) 一种基于数据分布库的多维度数据分布方法
CN105515997B (zh) 基于bf_tcam实现零范围扩张的高效范围匹配方法
CN101741705A (zh) 一种并行处理路由更新报文的方法及装置
CN110147377A (zh) 大规模空间数据环境下基于二级索引的通用查询算法
CN104111924A (zh) 一种数据库系统
CN109710668A (zh) 一种多源异构数据访问中间件构建方法
CN106371924A (zh) 一种最小化MapReduce集群能耗的任务调度方法
CN110120892B (zh) 基于改进的萤火虫算法的sdn多控制器部署方法及系统
CN107426315A (zh) 一种基于BP神经网络的分布式缓存系统Memcached的改进方法
CN110134695A (zh) 一种面向流水线结构化数据查询的数据库智能分区方法
CN105138536B (zh) 基于有向超图的移动社交网络数据分片方法
CN109857562A (zh) 一种众核处理器上访存距离优化的方法
WO2010016941A1 (en) System, method, and computer program product for accessing and manipulating remote datasets
CN108733781A (zh) 基于内存计算的集群时态数据索引方法
CN112015733A (zh) 一种电力客服营配业务海量数据存储及快速查询方法
CN107943927B (zh) 一种分布式存储系统中多维数据的存储模式转换方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant