CN110147372B - 一种面向htap的分布式数据库智能混合存储方法 - Google Patents
一种面向htap的分布式数据库智能混合存储方法 Download PDFInfo
- Publication number
- CN110147372B CN110147372B CN201910424312.8A CN201910424312A CN110147372B CN 110147372 B CN110147372 B CN 110147372B CN 201910424312 A CN201910424312 A CN 201910424312A CN 110147372 B CN110147372 B CN 110147372B
- Authority
- CN
- China
- Prior art keywords
- data
- storage
- layout
- htap
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/278—Data partitioning, e.g. horizontal or vertical partitioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向HTAP的分布式数据库智能混合存储方法,该包括:通过数据导入系统获取数据源中的数据,并存储于HTAP数据库的存储引擎中,其中,存储引擎由多个存储节点组成,每个存储节点的数据以列族的数据组织格式进行存储;中心节点根据历史OLAP、OLTP的工作负载情况,采用基于密度的聚类分区算法对存储引擎中的数据布局进行优化重组分析,进而获得最优数据布局。本发明以列族的方式对HTAP数据库中的数据进行组织,并根据中心节点计算出的最优存储布局动态地调整列族中的数据,而最优的存储布局是通过基于密度的聚类算法通过聚类结果得出使得具有相当访问频率的列属于同一列族,即经常被访问的列属于同一列族。
Description
技术领域
本发明涉及在HTAP的业务场景下,通过机器学习分析历史业务和最近业务的工作负载情况,动态地对存储引擎数据布局重组的技术领域,具体涉及一种面向HTAP的分布式数据库智能混合存储方法。
背景技术
HTAP数据库是一款同时支持联机事务处理(OLTP)和联机分析处理(OLAP)两种业务类型的分布式数据库产品,由于OLAP和OLTP系统具有非常不同的特性,存储引擎中数据以行的形式存储对OLTP友好,以列的形式存储对OLAP更友好。但如果同时更好地支持高效查询的OLAP和实时性要求高的OLTP,那么存储引擎的数据组织格式便起着至关重要的作用。
目前,peloton的存储使用tile的数据组织形式,即一个表中由多个tile group组成,一个tile group由多个physical tile组成,一个physical tile类似表的水平/垂直分区。peloton的数据库系统属于单机系统,将数据全部放到一个存储节点上,然后只对这一个存储节点的数据进行布局的优化及重组。但这种数据组织形式存在一些劣势:单机系统的容量和吞吐量都很小、性能低,无法应对越来越大的业务量,无论是计算能力还是存储能力,都不能较好地支持大数据时代的HTAP业务。
而应用于HTAP数据存储上,peloton现有使用的k-means聚类算法对统计的数据进行聚类分析的分区算法存在一些劣势:1、需要调参:聚类数k、旧样本的权重w,(1)、在计算之前需要先对聚类数k进行初始化,但是k值的选取很不好把握,而且k值的选取会直接影响到聚类效果,需要对k进行调参,除此之外,强行输入固定的聚类簇数必然影响真实的聚类形态分布;(2)、需要对旧样本的权重w进行调参,且k和w相互影响,需要联合调参。2、由于聚类的簇数在最开始就已经确定,即表中tile group的数量就已确定,但实际上随着时间的推移,HTAP工作负载不断的变化,tile group数有时较大会比较好,但是有时候tile group数较小对HTAP会更友好。3、不适用于凸样本集,因为凸的数据集比较难收敛。4、每个簇中心初始值的选取会影响最后的结果,最后得到的结果只是局部最优而非全局最优,而且该算法不易控制,迭代次数可能较多。
发明内容
本发明所要解决的技术问题是:针对peloton现有的分区算法的不足,且peloton是单机系统。单机系统的容量和吞吐量都很小、性能低,无法应对越来越大的业务量,无论是计算能力还是存储能力,都不能较好地支持大数据时代的HTAP业务;而应用于HTAP数据存储上的在线k-means聚类算法对统计的数据进行聚类分析的处理算法存在一些劣势,需要调参聚类数k、旧样本的权重w,而k和w又相互影响,而聚类的簇数在最开始就已经确定,即表中tile group的数量就已确定,但实际上随着时间的推移,HTAP工作负载不断的变化,tile group数会受影响,另外,收敛性差、只能寻找到局部最优解的问题。
本发明提供了解决上述问题的一种面向HTAP的分布式数据库智能混合存储方法,给出一种基于分布式环境下的存储引擎节点数据布局的分区算法,面向HTAP的存储引擎数据的组织方式以及面向HTAP的分布式数据库框架,进而更友好地支持HTAP未来的工作负载,提升数据库性能。
本发明通过下述技术方案实现:
一种面向HTAP的分布式数据库智能混合存储方法,存储方法包括:
通过数据导入系统获取数据源中的数据,并存储于HTAP数据库的存储引擎中,其中,存储引擎由多个存储节点组成,每个存储节点的数据以列族形式进行数据存储;
中心节点根据OLAP和OLTP业务请求,采用基于密度的聚类分区算法对存储引擎中的数据布局进行优化重组分析,进而获得最优数据布局。
工作原理是:基于分布式的计算能力和存储能力都很强,非常适用于大数据时代的HTAP业务,能很好地支持HTAP的应用场景。本发明以列族的方式对HTAP数据库中的数据进行组织,并根据中心节点计算出的最优存储布局动态地调整列族中的数据,而最优的存储布局是通过基于密度的聚类算法通过聚类结果得出,使得具有相当访问频率的列在新布局中属于同一列族,即经常被访问的列属于同一列族,在未来以更好地支持高效查询的OLAP和实时性要求高的OLTP的工作负载。列族是一种界于行存和列存之间的一种存储格式,非常灵活,对OLTP和OLAP都比较友好支持,实现热数据(面向OLTP的行式存储)与冷数据(面向OLAP的列式存储)相互转换的桥梁;但又不同于Bigtable的列族组织方式,Bigtable一个列族的数据类型往往是一样的,且列族一旦创建就几乎不会改变。同时,基于密度的聚类分区算法,无需确定最终聚类结果的簇数,会根据历史查询样本和最近历史查询样本的数据分布情况合理地生成簇的个数,也就是存储节点中列族的个数;还能发现数据流中任意的类簇,能对数据流中所有的查询样本进行聚类分析,并且采用衰减窗口对不同时间的查询样本进行加权,来控制历史查询样本的权重,进而控制最后的聚类结果是偏向于旧查询样本还是最近的查询样本。
本发明给出了一种基于分布式环境下的存储引擎节点数据布局的分区算法,面向HTAP的存储引擎数据的组织方式以及面向HTAP的分布式数据库框架,进而更友好地支持HTAP未来的工作负载,提升数据库性能。
进一步地,每个存储节点的数据以列族形式进行数据组织,其中,数据布局因素包括列族的数量和列族中列的数量。
进一步地,所述基于密度的聚类分区算法DenStream采用两阶段处理框架,包括在线阶段和离线阶段,根据历史查询样本和最近历史查询样本的数据分布情况生成簇的个数,簇的个数作为每个存储节点的列族数量,并采用衰减窗口对不同时间的查询样本进行加权,来控制历史查询样本的权重,进而控制最后的聚类结果是偏向于旧查询样本还是最近的查询样本,并获得最优数据布局的聚类结果。
其中:基于密度的聚类分区算法DenStream,通过引入核心微簇CMC、潜在核心微簇PMC、离群微簇OMC和时间衰减函数f(t)=2-λ来对不同时间的数据点的重要性进行加权,对微簇micro-cluster也加入了时间权重;其中:对于历史久远的样本数据,在计算类中心的时候,采用衰减函数进行加权,λ用于调节衰减速度,值越大,表示对历史的数据的权重越低。在线阶段,同时维护潜在核心微簇PMC和离群微簇OMC两个队列,根据在两个队列的权重变化来对微簇的潜在核心和离群两个角色进行调整变化;离线阶段,设置聚类的时间间隔,及重新计算存储引擎数据布局的时间间隔,当达到设置好的时间,就重新聚类生成达到最优数据布局的聚类结果。DenStream算法先忽略密度不足够的两类微簇,然后使用基于密度空间的聚类算法DBSCAN,对当前的潜在核心微簇PMC和离群微簇OMC进行处理,得到聚类结果并返回。
具体地,中心节点根据OLAP和OLTP业务请求,采用基于密度的聚类分区算法DenStream对存储引擎中的数据布局进行优化重组分析,使得具有相当访问频率的列在新布局中属于同一列族,即经常被访问的列属于同一列族,进而获得最优数据布局,具体包括:
客户端将OLAP和OLTP业务请求发到中心节点,中心节点统计select子句、where子句、insert和update访问的属性信息,并将这些属性信息以数字向量的方式存储,并将select子句和where子句中的属性信息作为DenStream算法的参数进行DenStream在线阶段的聚类运算;其中,数字向量的长度等于存储引擎表中所有属性的数量;
中心节点从该数据库系统启动开始便维护一个计时器,用来维持存储引擎中数据布局重组的时间,当达到重新计算存储引擎数据布局的时间时,DenStream算法便执行离线阶段的离线计算,采用基于密度空间的聚类算法DBSCAN,对当前的潜在核心微簇PMC和离群微簇OMC进行处理,得到聚类结果;
根据中心节点统计的insert和update的访问属性信息,将生成的聚类的簇按照权重进行降序排序,然后使用贪心算法将数据库表中的每个列都添加到离簇中心最近的簇,直到数据库表中的每个列都属于某个簇为止,对应地,数据库表中的每个列都会被划分到某个列族中;其中,一个簇代表存储节点中数据的一个列族;
中心节点将计算好的布局信息发给每个存储节点;
存储引擎中的各个存储节点根据收到的最优数据布局信息以增量的方式将原布局中的数据拷到新布局中,当原布局中的数据不会再使用的时候便清除它所占用的空间。
进一步地,通过数据导入系统获取数据源中的数据,在数据导入系统中将从外部数据源读取的数据进行横切,即根据行号划分为多个数据分片,然后将横切之后的各个数据分片发往各个存储节点,尽量确保存储引擎节点间负载均衡。
本发明具有如下的优点和有益效果:
1、本发明提出了面向HTAP的数据组织格式,以列族的方式进行组织,并根据中心节点计算出的最优存储布局动态地调整列族中的数据;其中,列族数及列族中列的数量都可能会做相应改变;
2、本发明提出了在HTAP的应用场景下,一种分布式环境下的基于密度的聚类算法,通过该算法计算出最优的存储布局,以更好地支持未来高效查询的OLAP和实时性要求高的OLTP的工作负载,进而提升数据库性能;
3、本发明以列族的方式对HTAP数据库中的数据进行组织,并根据中心节点计算出的最优存储布局动态地调整列族中的数据,而最优的存储布局是通过基于密度的聚类算法通过聚类结果得出使得具有相当访问频率的列属于同一列族,即经常被访问的列属于同一列族,以更好地支持高效查询的OLAP和实时性要求高的OLTP的工作负载。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,一种面向HTAP的分布式数据库智能混合存储方法,存储方法包括:
通过数据导入系统获取数据源中的数据,并存储于HTAP数据库的存储引擎中,其中,存储引擎由多个存储节点组成,每个存储节点的数据以列族形式进行数据存储;
中心节点根据OLAP和OLTP业务请求,采用基于密度的聚类分区算法对存储引擎中的数据布局进行优化重组分析,随着数据布局的不断重组,列族的数量、列族里列的数量根据分区算法得出的最优布局不断地在改变,进而获得最优数据布局。
如图1所示为系统架构,本发明方法具体流程如下:
(1)数据导入系统读取数据源中的数据,并将读取到的数据横切,然后发往各个存储引擎的存储节点。在发往存储引擎节点的过程中,应使每个存储节点都有数据库表的部分数据,且确保存储引擎节点间负载均衡。
(2)客户端将OLAP和OLTP业务请求发到中心节点,中心节点统计select子句、where子句、insert和update访问的属性信息,并将这些属性信息以数字向量的方式存储,然后将select子句和where子句中的属性信息作为基于密度的聚类分区算法的参数进行在线阶段的聚类运算;其中,数字向量的长度等于存储引擎表中所有属性的数量。
(3)中心节点从数据库系统启动开始便维护一个计时器,用来维持存储引擎中数据布局重组的时间。当达到重新计算存储引擎数据布局的时间时,基于密度的聚类分区算法便开始第二阶段(离线阶段)的离线计算,使用基于密度空间的聚类算法DBSCAN算法,对当前的潜在核心微簇PMC和离群微簇OMC进行处理,得到聚类结果。
(4)根据中心节点统计的insert和update的访问属性信息,将生成的聚类的簇按照权重进行降序排序,然后使用贪心算法将数据库表中的每个列都添加到离簇中心最近的簇。直到最后数据库表中的每个列都属于某个簇。一个簇代表存储节点中数据的一个列族。也就是最后数据库表中的每个列都会被划分到某个列族中。
(5)中心节点将计算好的布局信息发给每个存储节点。
(6)存储引擎中的各个存储节点根据收到的最优数据布局信息以增量的方式将原布局中的数据拷到新布局中,当原布局中的数据不会再使用的时候便清除它所占用的空间。
本发明支持HTAP的业务场景下,通过机器学习分析历史业务和最近业务的工作负载情况,动态地实现对存储引擎数据布局重组,本发明以列族的方式对HTAP数据库中的数据进行组织,并根据中心节点计算出的最优存储布局动态地调整列族中的数据,最优的数据存储布局通过DenStream聚类算法的聚类结果得到,使得具有相当访问频率的属性属于同一列族,即经常被访问的列属于同一列族,以更好地支持未来高效查询的OLAP和实时性要求高的OLTP的工作负载。本发明给出的基于分布式环境下的存储引擎节点数据布局的分区算法,面向HTAP的存储引擎数据的组织方式以及面向HTAP的分布式数据库框架,进而更友好地支持HTAP未来的工作负载,提升数据库性能。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种面向HTAP的分布式数据库智能混合存储方法,其特征在于,存储方法包括:
通过数据导入系统获取数据源中的数据,并存储于HTAP数据库的存储引擎中,其中,存储引擎由多个存储节点组成,每个存储节点的数据以列族形式进行数据存储;
中心节点根据OLAP和OLTP业务请求,采用基于密度的聚类分区算法对存储引擎中的数据布局进行优化重组分析,进而获得最优数据布局;
所述基于密度的聚类分区算法DenStream采用两阶段处理框架,包括在线阶段和离线阶段,根据历史查询样本和最近历史查询样本的数据分布情况生成簇的个数,簇的个数作为每个存储节点的列族数量,并采用衰减窗口对不同时间的查询样本进行加权,来控制历史查询样本的权重,进而控制最后的聚类结果是偏向于旧查询样本还是最近的查询样本,并获得最优数据布局的聚类结果;
中心节点根据OLAP和OLTP业务请求,采用基于密度的聚类分区算法DenStream对存储引擎中的数据布局进行优化重组分析,进而获得最优数据布局,具体包括:
客户端将OLAP和OLTP业务请求发到中心节点,中心节点统计select子句、where子句、insert和update访问的属性信息,并将这些属性信息以数字向量的方式存储,并将select子句和where子句中的属性信息作为DenStream算法的参数进行DenStream在线阶段的聚类运算;其中,数字向量的长度等于存储引擎表中属性的数量;
中心节点从数据库系统启动开始便维护一个计时器,用来维持存储引擎中数据布局重组的时间,当达到重新计算存储引擎数据布局的时间时,DenStream算法便执行离线阶段的离线计算,采用基于密度空间的聚类算法DBSCAN,对当前的潜在核心微簇PMC和离群微簇OMC进行处理,得到聚类结果;
根据中心节点统计的insert和update的访问属性信息,将生成的聚类的簇按照权重进行降序排序,然后使用贪心算法将表中的每个列都添加到离簇中心最近的簇,直到表中的每个列都属于某个簇为止,对应地,表中的每个列都会被划分到某个列族中;其中,一个簇代表存储节点中数据的一个列族;
中心节点将计算好的布局信息发给每个存储节点;
存储引擎中的各个存储节点根据收到的最优数据布局信息以增量的方式将原布局中的数据拷到新布局中,当原布局中的数据不会再使用的时候便清除它所占用的空间;
最优数据布局通过DenStream聚类算法的聚类结果得到,使得具有相当访问频率的属性属于同一列族。
2.根据权利要求1所述的一种面向HTAP的分布式数据库智能混合存储方法,其特征在于,每个存储节点的数据以列族形式进行数据组织,其中,数据布局因素包括列族的数量和列族中列的数量。
3.根据权利要求1所述的一种面向HTAP的分布式数据库智能混合存储方法,其特征在于,通过数据导入系统获取数据源中的数据,并在数据导入系统中对读取到的数据进行横切,并将横切后的数据以轮询的方式发往各个存储节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910424312.8A CN110147372B (zh) | 2019-05-21 | 2019-05-21 | 一种面向htap的分布式数据库智能混合存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910424312.8A CN110147372B (zh) | 2019-05-21 | 2019-05-21 | 一种面向htap的分布式数据库智能混合存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110147372A CN110147372A (zh) | 2019-08-20 |
CN110147372B true CN110147372B (zh) | 2022-12-23 |
Family
ID=67592492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910424312.8A Active CN110147372B (zh) | 2019-05-21 | 2019-05-21 | 一种面向htap的分布式数据库智能混合存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147372B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825791A (zh) * | 2019-11-14 | 2020-02-21 | 北京京航计算通讯研究所 | 基于分布式系统的数据访问性能优化系统 |
CN110895451A (zh) * | 2019-11-14 | 2020-03-20 | 北京京航计算通讯研究所 | 基于分布式系统的数据访问性能优化方法 |
CN111046074B (zh) * | 2019-12-13 | 2023-09-01 | 北京百度网讯科技有限公司 | 流式数据处理方法、装置、设备和介质 |
CN110825816B (zh) * | 2020-01-09 | 2020-04-21 | 四川新网银行股份有限公司 | 对分片数据库数据采集的系统和方法 |
CN111858759B (zh) * | 2020-07-08 | 2021-06-11 | 平凯星辰(北京)科技有限公司 | 一种基于共识算法的htap数据库系统 |
CN111913987B (zh) * | 2020-08-10 | 2023-08-04 | 东北大学 | 一种基于维组-时空-概率过滤的分布式查询系统及方法 |
CN115438046B (zh) * | 2022-08-25 | 2023-03-28 | 北京万里开源软件有限公司 | 一种基于htap数据库的分布式储存方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6470330B1 (en) * | 1998-11-05 | 2002-10-22 | Sybase, Inc. | Database system with methods for estimation and usage of index page cluster ratio (IPCR) and data page cluster ratio (DPCR) |
US6549907B1 (en) * | 1999-04-22 | 2003-04-15 | Microsoft Corporation | Multi-dimensional database and data cube compression for aggregate query support on numeric dimensions |
US6633882B1 (en) * | 2000-06-29 | 2003-10-14 | Microsoft Corporation | Multi-dimensional database record compression utilizing optimized cluster models |
CN101828182A (zh) * | 2007-09-21 | 2010-09-08 | 哈索-普拉特纳-研究所软件系统有限责任公司 | 报告oltp数据的无etl零冗余系统和方法 |
CN102411634A (zh) * | 2011-12-27 | 2012-04-11 | 北京人大金仓信息技术股份有限公司 | 一种提升嵌入式数据库实时性的数据存储方法 |
CN103109292A (zh) * | 2010-09-24 | 2013-05-15 | 日立数据系统有限公司 | 在容错数据库管理系统中聚集查询结果的系统和方法 |
CN103440245A (zh) * | 2013-07-15 | 2013-12-11 | 西北工业大学 | 数据库系统的行列混合存储方法 |
CN104516967A (zh) * | 2014-12-25 | 2015-04-15 | 国家电网公司 | 一种电力系统海量数据管理系统及其使用方法 |
CN108319714A (zh) * | 2018-02-08 | 2018-07-24 | 中国人民公安大学 | 一种基于HBase的列存储压缩方法 |
CN108334565A (zh) * | 2018-01-15 | 2018-07-27 | 贵州易鲸捷信息技术有限公司 | 一种数据混合存储结构、数据存储查询方法、终端及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7080081B2 (en) * | 2002-04-15 | 2006-07-18 | International Business Machines Corporation | Multidimensional data clustering scheme for query processing and maintenance in relational databases |
US8266147B2 (en) * | 2006-09-18 | 2012-09-11 | Infobright, Inc. | Methods and systems for database organization |
-
2019
- 2019-05-21 CN CN201910424312.8A patent/CN110147372B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6470330B1 (en) * | 1998-11-05 | 2002-10-22 | Sybase, Inc. | Database system with methods for estimation and usage of index page cluster ratio (IPCR) and data page cluster ratio (DPCR) |
US6549907B1 (en) * | 1999-04-22 | 2003-04-15 | Microsoft Corporation | Multi-dimensional database and data cube compression for aggregate query support on numeric dimensions |
US6633882B1 (en) * | 2000-06-29 | 2003-10-14 | Microsoft Corporation | Multi-dimensional database record compression utilizing optimized cluster models |
CN101828182A (zh) * | 2007-09-21 | 2010-09-08 | 哈索-普拉特纳-研究所软件系统有限责任公司 | 报告oltp数据的无etl零冗余系统和方法 |
CN103109292A (zh) * | 2010-09-24 | 2013-05-15 | 日立数据系统有限公司 | 在容错数据库管理系统中聚集查询结果的系统和方法 |
CN102411634A (zh) * | 2011-12-27 | 2012-04-11 | 北京人大金仓信息技术股份有限公司 | 一种提升嵌入式数据库实时性的数据存储方法 |
CN103440245A (zh) * | 2013-07-15 | 2013-12-11 | 西北工业大学 | 数据库系统的行列混合存储方法 |
CN104516967A (zh) * | 2014-12-25 | 2015-04-15 | 国家电网公司 | 一种电力系统海量数据管理系统及其使用方法 |
CN108334565A (zh) * | 2018-01-15 | 2018-07-27 | 贵州易鲸捷信息技术有限公司 | 一种数据混合存储结构、数据存储查询方法、终端及介质 |
CN108319714A (zh) * | 2018-02-08 | 2018-07-24 | 中国人民公安大学 | 一种基于HBase的列存储压缩方法 |
Non-Patent Citations (3)
Title |
---|
HYBRID DATA LAYOUTS FOR TIERED HTAP DATABASES WITH PARETO-OPTIMAIL DATA PLACEMENTS;MARTIN BOISSIER ET AL.;《2018 IEEE 34TH INTERNATIONAL CONFERENCE ON DATA ENGINEERING》;20181025;全文 * |
利用优化的DENSTREAM算法进行空间数据流聚类;樊超 等;《测绘与空间地理信息》;20170605(第4期);第73-77页 * |
大数据应用下的新型分布式数据库NEWSQL;徐述 等;《数字技术与应用》;20181029;第36卷(第8期);第51-52页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110147372A (zh) | 2019-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147372B (zh) | 一种面向htap的分布式数据库智能混合存储方法 | |
US5826261A (en) | System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query | |
CN1154899C (zh) | 在实时处理控制系统的节点中分配数据的系统及操作方法 | |
US10223437B2 (en) | Adaptive data repartitioning and adaptive data replication | |
CN111459617A (zh) | 基于云平台的容器化应用自动分配优化系统及其方法 | |
CN103345514A (zh) | 大数据环境下的流式数据处理方法 | |
CN107077513B (zh) | 用于数据的高效重新分区的通信 | |
JP5427640B2 (ja) | 決定木生成装置、決定木生成方法、及びプログラム | |
CN109471847B (zh) | 一种i/o拥塞控制方法及控制系统 | |
CN109460301B (zh) | 一种流数据负载的弹性资源配置方法及系统 | |
EP3465966B1 (en) | A node of a network and a method of operating the same for resource distribution | |
CN105975345B (zh) | 一种基于分布式内存的视频帧数据动态均衡存储管理方法 | |
WO2014062183A1 (en) | Communicating tuples in a message | |
US8239417B2 (en) | System, method, and computer program product for accessing and manipulating remote datasets | |
CN110119408A (zh) | 地理空间实时流数据下移动对象连续查询方法 | |
Hong et al. | Efficient R-tree based indexing scheme for server-centric cloud storage system | |
CN112765177B (zh) | 一种基于负载驱动的分布式图数据分割和复制方法 | |
Li et al. | Searching continuous nearest neighbors in road networks on the air | |
CN109089323B (zh) | 一种低开销的工业无线传感器选择方法 | |
CN116822759A (zh) | 旅行商问题求解方法、装置、设备及存储介质 | |
Heintz et al. | Towards optimizing wide-area streaming analytics | |
Deng et al. | Spatial-keyword skyline publish/subscribe query processing over distributed sliding window streaming data | |
Fang et al. | Cost-effective stream join algorithm on cloud system | |
Laili et al. | Parallel transfer evolution algorithm | |
Dong et al. | Optimization of service scheduling in computing force network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |