CN116028584A - 混合事务分析处理的数据仓库 - Google Patents

混合事务分析处理的数据仓库 Download PDF

Info

Publication number
CN116028584A
CN116028584A CN202310311297.2A CN202310311297A CN116028584A CN 116028584 A CN116028584 A CN 116028584A CN 202310311297 A CN202310311297 A CN 202310311297A CN 116028584 A CN116028584 A CN 116028584A
Authority
CN
China
Prior art keywords
attribute
data warehouse
block
hybrid
transaction analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310311297.2A
Other languages
English (en)
Other versions
CN116028584B (zh
Inventor
刘凤成
梁西龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huateng Shuyun Beijing Technology Co ltd
Original Assignee
Huateng Shuyun Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huateng Shuyun Beijing Technology Co ltd filed Critical Huateng Shuyun Beijing Technology Co ltd
Priority to CN202310311297.2A priority Critical patent/CN116028584B/zh
Publication of CN116028584A publication Critical patent/CN116028584A/zh
Application granted granted Critical
Publication of CN116028584B publication Critical patent/CN116028584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种混合事务分析处理的数据仓库,用以解决混合事务分析处理响应效率低的技术问题。具体的,一种混合事务分析处理的数据仓库,包括:面向事务和分析的逻辑块;根据预设操作指令,由逻辑块实体化的物理块;根据预设存储策略,在物理块中按照行存储和列存储混合存储的属性和与属性对应的属性值。本申请提供的混合事务分析处理的数据仓库,按照行存储和列存储的混合存储方式对元组数据进行存储,弥合了联机事务处理OLTP和联机分析处理OLAP之间的体系结构鸿沟,提高了混合事务分析处理HTAP响应效率。

Description

混合事务分析处理的数据仓库
技术领域
本申请涉及数据处理领域,尤其涉及一种混合事务分析处理的数据仓库。
背景技术
联机数据处理是一种以事务元作为数据处理的单位,对数据库中数据进行更新或查询的技术。现有技术中,联机数据处理大致可以分成两大类:联机事务处理OLTP(On-LineTransaction Processing)、联机分析处理OLAP(On-Line Analytical Processing)。其中,OLTP侧重于批量更新事务状态,便于事务处理。OLAP侧重于查询事务属性,提供直观的查询结果,便于事务分析。
在实现现有技术的过程中,发明人发现:
为了满足联机数据处理的工作需求,现有技术分别建立对应OLTP的信息架构和基础设施、对应OLAP的信息架构和基础设施。也就是说,现有技术中存在OLTP专门使用的系统、 OLAP专门使用的系统,这些系统仅针对其中一种联机数据处理的工作负载进行了优化,还需要针对不同的系统建立不同的数据库副本。
在联机数据处理应用于商业分析的场景中,需要在同一数据库上快速完成OLTP处理、OLAP处理等混合工作,称为混合事务分析处理。商业分析侧重响应效率,但混合事务分析处理受限于需要跨数据库副本调用,且OLTP处理、OLAP处理间也存在工作负载干扰,因此混合事务分析处理的响应效率低,出现分析延迟。
因此,需要提供一种新的混合事务分析处理的数据仓库,用以解决混合事务分析处理响应效率低的技术问题。
发明内容
本申请实施例提供一种新的混合事务分析处理的数据仓库,用以解决混合事务分析处理响应效率低的技术问题。
具体的,一种混合事务分析处理的数据仓库,包括:
面向事务和分析的逻辑块;
根据预设操作指令,由逻辑块实体化的物理块;
根据预设存储策略,在物理块中按照行存储和列存储混合存储的属性和与属性对应的属性值。
进一步的,所述属性具有访问热度指标;
所述物理块被配置为:
当属性的访问热度指标不小于预设访问热度指标阈值时,属性和与属性对应的属性值进行行存储;
当属性的访问热度指标小于预设访问热度指标阈值时,属性和与属性对应的属性值进行列存储。
进一步的,两个所述属性之间具有关联度指标;
所述物理块被配置为:
当两个所述属性之间的关联度指标不小于预设关联度指标阈值时,两个所述属性和与属性对应的属性值连续存储。
进一步的,所述逻辑块的属性和与属性对应的属性值按照列存储的方式进行存储。
进一步的,所述逻辑块被配置为有且仅有一个属性映射物理块。
进一步的,所述逻辑块与混合事务分析处理的数据仓库面向的事务的计划树直接关联。
进一步的,所述逻辑块配置有逻辑块代数,以便映射在物理块中按照行存储和列存储混合存储的属性和与属性对应的属性值。
进一步的,所述逻辑块被配置为:
根据混合事务分析处理的数据仓库的访问方法和输入谓词,实时构造逻辑块。
进一步的,所述物理块被配置为:
根据预设操作指令,使用聚合函数实体化逻辑块,生成数据仓库的物理片。
进一步的,所述混合事务分析处理的数据仓库还包括管道中断功能符,以便在物理块中对属性值事务操作之前中断分析。
本申请实施例提供的技术方案,至少具有如下有益效果:
按照行存储和列存储的混合存储方式对元组数据进行存储,弥合了联机事务处理OLTP和联机分析处理OLAP之间的体系结构鸿沟,提高了混合事务分析处理HTAP响应效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的混合事务分析处理的数据仓库的结构示意图;
图2为本申请实施例提供的查询操作过程中逻辑块与物理块的对应关系示意图;
图3为本申请实施例提供的面向混合事务分析处理的数据仓库的事务的计划树示意图。
图中附图标记表示为:
100               混合事务分析处理的数据仓库
11                逻辑块
12                物理块。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在联机数据处理应用于商业分析的场景中,需要在同一数据库上快速完成OLTP处理、OLAP处理等混合工作,称为混合事务分析处理(下文简称HTAP)。商业分析侧重响应效率,但混合事务分析处理受限于需要跨数据库副本调用,且OLTP处理、OLAP处理间也存在工作负载干扰,因此混合事务分析处理的响应效率低,出现分析延迟。
下面详细介绍出现工作负载干扰的原因:
现有技术中,联机事务处理OLTP(On-Line Transaction Processing)侧重于批量更新事务状态,联机分析处理OLAP(On-Line Analytical Processing)侧重于查询事务属性。
针对联机事务处理OLTP,常采用 NSM (N-ary Storage Model) 存储模型,存储对应OLTP的联机数据,生成便于批量更新的NSM数据库。NSM数据库将若干对应OLTP的联机数据构成页。所述页设置有索引,用于存放页内各对应OLTP的联机数据的起始偏移量,以便快速找到需要的联机数据,而无需逐个扫描。
NSM数据库存储对应OLTP的联机数据,但如果基于NSM数据库进行联机分析处理OLAP,出现的工作负载干扰表现为:由于联机分析处理OLAP每次查询只涉及所需属性的部分联机数据,而NSM数据库中多余的联机数据依然要占用掉宝贵的内存以及 CPU Cache(CPU缓存),从而导致更多的IO(输入/输出)。
针对联机分析处理OLAP,常采用 DSM (Decomposition Storage Model)存储模型,存储对应OLAP的联机数据,生成便于快速查询的DSM数据库。DSM数据库也将若干对应OLAP的联机数据构成页。所述页的尾部设置有索引,用于存放页内各对应OLAP的联机数据的起始偏移量。DSM数据库中的联机数据具有更低的解释开销,因此在联机分析处理OLAP每次查询只涉及所需属性的部分联机数据时,可以跳过不需要属性的部分联机数据,进而提高了CPU效率。
DSM数据库存储对应OLAP的联机数据,但如果基于DSM数据库进行联机事务处理OLTP,出现的工作负载干扰表现为:由于联机事务处理OLTP需要向DSM数据库插入大量联机数据或更新大量联机数据,而存储管理器又需要将大量联机数据的属性复制到不同的存储位置,进而占用大量运算资源。
可见,由于对应OLTP的信息架构和基础设施、对应OLAP的信息架构和基础设施存在设计架构上的不同,在针对混合事务分析处理时,容易出现工作负载干扰,进而出现分析延迟,导致响应效率低。
为解决混合事务分析处理响应效率低的技术问题,本申请提供一种混合事务分析处理的数据仓库100。所述数据仓库100采用混合布局的方式构建,既存储对应OLTP的联机数据,也存储对应OLAP的联机数据。
请参照图1,所述混合事务分析处理的数据仓库100包括:
面向事务和分析的逻辑块11;
根据预设操作指令,由逻辑块11实体化的物理块12;
根据预设存储策略,在物理块12中按照行存储和列存储混合存储的属性和与属性对应的属性值。
具体的,所述混合事务分析处理的数据仓库100(下文简称DBMS)使用包括内存与磁盘的多层混合架构,支持直接访问特定记录。同时,所述混合事务分析处理的数据仓库100采用实时雾化技术,实现历史数据到内存动态分片缓冲,性能可提升2-5倍。
进一步的,所述混合事务分析处理的数据仓库100中磁盘部分将数据读到内存部分缓存中使用时,无需内存缓存往磁盘写old pages和变更数据状态等过程,性能进一步提高。
所述混合事务分析处理的数据仓库100将联机数据的属性和与属性对应的属性值,以行存储或列存储的存储方式进行存储,生成对应行存储或对应列存储的物理块12(Physical tiles)。具体的,混合事务分析处理的数据仓库100将联机数据的关系relation作为行,进行行存储,生成对应行存储的物理块12。或将联机数据的关系relation拆分成多个sub-relation作为列,进行列存储,生成对应列存储的物理块12。
所述预设存储策略可以表现为混合布局。在具体的应用场景中,DBMS根据联机数据的关系 relation,将所述行、列构成存储表。所述存储表定义混合布局,混合布局也即根据物理块12与行存储、列存储的对应关系,组合成映射存储表的物理块12集合。
进一步的,在本申请提供的一种具体应用场景中,所述属性具有访问热度指标;
所述物理块12被配置为:
当属性的访问热度指标不小于预设访问热度指标阈值时,属性和与属性对应的属性值进行行存储;
当属性的访问热度指标小于预设访问热度指标阈值时,属性和与属性对应的属性值进行列存储。
在具体的应用场景中,DBMS将首次添加的属性和与属性对应的属性值,构建元组。进一步的,DBMS根据联机事务处理OLTP、联机分析处理OLAP的历史访问记录,定义属性的访问热度指标。并设置,属性的访问热度指标随着时间衰减。也即间隔特定时长,对属性的访问热度进行预设衰减阈值衰减。
这是考虑到元组在首次添加到数据库后的一段时间内,更新频率较高。而随着时间的推移,元组的更新频率下降,未来很长一段时间都不太可能再次更新。
对于这些元组,本申请根据历史访问结果,对属性的访问热度指标进行赋值。当属性的访问热度指标不小于预设访问热度指标阈值时,可以将属性和与属性对应的属性值称为热数据。考虑到短时间内,对热数据的查询、修改的可能性较大,本申请将访问热度指标不小于预设访问热度指标阈值的属性和与属性对应的属性值进行行存储,以便于对属性和与属性对应的属性值进行联机事务处理OLTP,也即批量更新事务状态。
当属性的访问热度指标小于预设访问热度指标阈值时,可以将属性和与属性对应的属性值称为冷数据。此时属性和与属性对应的属性值不再频繁变动,本申请将访问热度指标小于预设访问热度指标阈值的属性和与属性对应的属性值进行列存储,以便于对属性和与属性对应的属性值进行联机分析处理OLAP,也即查询事务属性。
可见,根据属性的访问热度指标对属性和与属性对应的属性值进行行存储或列存储,能够有效支持混合事务分析处理的工作需求,这样的存储方式更为合理,更贴合现实使用场景,提高了响应效率。
进一步的,两个所述属性之间具有关联度指标;
所述物理块12被配置为:
当两个所述属性之间的关联度指标不小于预设关联度指标阈值时,两个所述属性和与属性对应的属性值连续存储。
在具体的应用场景中,第一属性与第二属性具有关联关系,也即通常会连续访问第一属性的元组与第二属性的元组。因此,也可以根据联机事务处理OLTP、联机分析处理OLAP的历史访问记录,定义两个所述属性之间具有关联度指标。
对于这些元组,本申请根据历史访问结果,对两个所述属性的关联度指标进行赋值。当两个所述属性之间的关联度指标不小于预设关联度指标阈值时,两个所述属性和与属性对应的属性值连续存储,能够有效支持混合事务分析处理的工作需求,这样的存储方式更为合理,更贴合现实使用场景,提高了响应效率。
进一步的,为便于混合事务分析处理在物理块12集合中确定需要的物理块12,数据仓库100还包括面向事务和分析的逻辑块11。
所述逻辑块11面向事务和分析,用于提供查询物理块12的索引。其中,所述逻辑块11面向的事务表现为联机事务处理OLTP,侧重于批量更新事务状态。所述逻辑块11面向的分析表现为联机分析处理OLAP,侧重于查询事务属性,提供直观的查询结果。
在具体的应用场景中,所述逻辑块11(logical tiles)表现为抽象层,用于简洁地表示分布在一个或多个存储表的物理块12集合中的值。换句话说,逻辑块11是物理块12的抽象化。进一步的,所述逻辑块11的属性和与属性对应的属性值按照列存储的方式进行存储。所述逻辑块11被配置为有且仅有一个属性映射物理块12。混合事务分析处理的数据仓库100使用所述逻辑块11隐藏存储表或混合布局的细节,能够不牺牲工作负载,实现优化存储表或混合布局的性能优势。
下面用一个例子介绍所述混合事务分析处理的数据仓库100执行查询操作的实现过程:
请参照图2,物理块A-1存储第一联机数据的属性和与属性对应的属性值,物理块A-2存储第二联机数据的属性和与属性对应的属性值。物理块A-1和物理块A-2构成物理块集合。
逻辑块X指向物理块A-1和物理块A-2。DBMS将此对应关系存储在逻辑块X的元组区域中,以列的形式表示分布在一个或多个存储表的物理块集合中的值。具体的,逻辑块X的每一列包含对应于底层物理块A-1和物理块A-2中联机数据的偏移量列表。举例来说,逻辑块X中的第一列映射物理块A-1的第一个属性值和第二个属性值。
当DBMS根据查询操作指令,由逻辑块X检索目标物理块时,将得到实体块(materializationg tiles)。
所述实体块表现为包含部分查询结果的表,扫描该表可以计算输出值,作为查询结果。此处将根据实体块计算得到输出结果称为实体化过程。
在本申请提供的具体应用场景中,实体块Y的第一列的前两个属性值为物理块A-1的第一个属性值和第二个属性值。
存储在逻辑块X第一行第一列中的值表示物理块A-1第一联机数据的前两个属性值。在实体化过程中,DBMS将物理块A-1第一联机数据的前两个属性值转换为{101,201}。类似地,存储在逻辑块X第一行第二列中的属性值映射物理块A-1的第三个属性值和物理块A-2的第一个属性值。实体化后,物理块A-1的第三个属性值和物理块A-2的第一个属性值变成{ITEM-101,10}。
在实体化期间,DBMS对于逻辑块X中的列映射到的所有属性值,使用相同的联机数据偏移列表。参照逻辑块X的第二列和第三列可知,逻辑块X(具有唯一偏移列表)中的两列可以映射到物理块中的同一属性。
进一步的,为了简化抽象,本申请还限制逻辑块11引用其他逻辑块11。这意味着每个逻辑块11列都映射物理块12中的一个属性。在如此简化后,逻辑块11也具备了提供表达的能力。
进一步的,所述逻辑块11与混合事务分析处理的数据仓库100面向的事务的计划树直接关联,表现为T-Tree + Cross-Tree的索引地址。下面用一个例子介绍所述逻辑块11与混合事务分析处理的数据仓库100针对面向的事务的计划树进行混合事务分析处理的实现过程:
请参照图3,为面向所述混合事务分析处理的数据仓库100的事务的计划树示例。以访问表R(a,b,c)和S(x,y,z)及其对应的计划树的查询为例,图中LT表示逻辑块,PT表示物理块,T表示表,C表示属性,P表示谓词。
进一步的,所述逻辑块11配置有逻辑块11代数,以便映射在物理块12中按照行存储和列存储混合存储的属性和与属性对应的属性值。
可以理解的是,为了保证DBMS可以有效地执行查询操作,需要减少DBMS的存储管理器和执行引擎之间的耦合。为此,本申请针对任意逻辑块11定义逻辑块11代数。所述逻辑块11代数表示从DBMS的查询处理组件中抽象出的物理布局的属性值,这使得操作符、运算符能够矢量化处理逻辑块11代数,减少了解释开销,进一步提高了响应效率。
优选的,所述逻辑块11代数对所述操作符、运算符隐藏了存储布局,这进一步降低了DBMS的代码复杂性,从而提高了可维护性和可测试性,提高了DBMS对不同执行引擎生成的结果进行合并的通用性。
进一步的,DBMS可以创建多个维度的逻辑块11代数组进行缓存,每个逻辑块11代数组中的元组数不同,以提高查询执行期间的匹配效率。此外,逻辑块11代数的简洁表示使DBMS能够更轻松地管理缓存中复杂的中间查询执行结果。
进一步的,所述逻辑块11被配置为:
根据混合事务分析处理的数据仓库100的访问方法和输入谓词,实时构造逻辑块11。
例如图3中,逻辑块11代数基于a从R中选择一些元组,基于x从S中选择一些元组。之后,逻辑块11代数基于b和y连接结果元组。最后,逻辑块11代数按c对结果元组进行分组,对于每个组,通过z计算总和。
进一步的,为配合逻辑块11代数执行操作指令,所述混合事务分析处理的数据仓库100还包括不同类型的操作符、运算符。
在本申请提供的一种优选实施方式中,根据操作符、运算符的功能性进行划分,可大致分为桥接功能符、元数据功能符、变量功能符、管道中断功能符。
所述桥接功能符用于表征表访问方法,至少包括顺序扫描操作符、索引扫描操作符、物化运算符。顺序扫描操作符为表中的每个块组生成一个逻辑块11。每个逻辑块11仅包含一列,该列是与块组中满足简化条件的所有元组相对应的偏移量列表。举例来说,在图3中,与R关联的顺序扫描(σ)操作符发出逻辑块11,表示满足谓词a=1的元组。
索引扫描操作符使用索引标识与谓词匹配的元组,构造一个或多个包含匹配元组的逻辑块11。
物化运算符将逻辑块11转换为物理块12。DBMS使用物化运算符执行早期物化。在图3中,聚合操作符(Γ)用聚合元组构造了一个物理块12,然后用一个传递逻辑块11包装它。为了将查询结果发送给客户端,DBMS运行物化运算符(Ω) 用于将聚合运算符返回的passthrough逻辑块11转换为物理块12。在这种情况下,物化运算符不需要构造新的物理块12,将直接返回传递逻辑块11下面的物理片。
下面介绍元数据功能符:
逻辑块11的元数据包括有关底层物理块12的信息,以及表示处理逻辑块11操作员必须检查的行的位图。元数据功能符只修改逻辑块11的元数据,而不修改它表示的数据。元数据功能符至少包括投影操作符、选择操作符。投影操作符用于修改输入逻辑块11模式中的属性列表,以删除查询计划的上层或其最终结果中不需要的属性。对于图3中的查询,与R关联的顺序扫描操作符(σ)顶部的投影操作符(π)输出包含属性b和c的逻辑块11。选择操作符用于修改输入逻辑块11的元数据,以将与不满足谓词的元组对应的任何行标记为不属于逻辑块11。
下面介绍变量功能符:
变量功能符用于修改存储在表中的数据,包括插入运算符、删除运算符、更新运算符。
插入运算符根据逻辑块11,将关联的元组附加到指定的表中。在这种情况下,插入运算符首先重建由逻辑块11表示的元组,然后将它们添加到表中。插入运算符还可以直接从客户端获取元组并将其附加到表中。
删除运算符根据逻辑块11,删除基础表中的元组。删除运算符使用逻辑块11第一列中的元组偏移量来标识应该删除的元组的位置,并进行删除。删除运算符还支持截断模式,以快速擦除表中的所有元组。
更新运算符删除逻辑块11中的元组,通过复制元组的旧版本并执行所请求的修改来构造元组的新版本,最后将更新版本的元组附加到表中。
进一步的,所述混合事务分析处理的数据仓库100还包括管道中断功能符,以便在物理块12中对属性值事务操作之前中断分析。
下面介绍管道中断功能符:
管道中断功能符根据在计划树中生成的逻辑块11,在等待其子级的输出时阻止执行上层操作符。这实际上打破了查询执行期间操作符之间逻辑块11的简化流。
管道中断功能符包括连接操作符、集合运算符、聚合运算符。
连接操作符接受一对逻辑块11,然后对其求值连接谓词。连接操作符首先构造一个输出逻辑块11,其模式是通过连接两个输入逻辑块11的模式获得的。当连接操作符遍历每对元组时,如果找到一对满足谓词的元组,那么将它们连接起来,并将它们附加到输出逻辑块11。对于图3所示的查询,连接操作符(1)检查投影(π)操作符发出的每对逻辑块11,然后生成一个连接的逻辑块11,其中包含满足连接谓词R.b=S.y的每一对逻辑块11元组。
集合运算符(如并集和交集)在检查其子级生成的逻辑块11时,会跟踪观察到元组。最后,集合运算符在将set操作应跳过的元组标记为不属于关联逻辑块11的一部分后发出逻辑块11。
类似地,聚合运算符(例如,count、sum)检查其子级中的所有逻辑块11,以构造聚合元组。
进一步的,所述物理块12被配置为:
根据预设操作指令,使用聚合函数实体化逻辑块11,生成数据仓库100的物理片。
需要指出的是,所述聚合运算符也即聚合函数。与集合运算符不同,聚合运算符构建新的物理块12来存储聚合元组。例如,在图3中,聚合运算符(Γ)构造了一个物理块12,该块包含每组元组的属性z的和,属性c具有唯一值。然后,聚合运算符构造了一组直通逻辑块11,并在计划树中一次向上传播一个逻辑块11。
在执行查询操作期间,DBMS可以动态选择将逻辑块11具体化为物理块12。在这种情况下,操作符或运算符构造一个传递逻辑块11(可视为中间查询结果),其中只有一列直接映射到物理块12中的属性,并将该逻辑块11向上传播到计划树中的其父图块。
进一步的,DBMS可以在查询执行期间,可以动态选择在计划树中的任何运算符处进行物化,并且可以在计划树中向上传播传递逻辑块11,以提高针对联机数据处理的工作负载的适用性。
进一步的,本申请提供的混合事务分析处理的数据仓库100执行查询策略,所述查询策略表现为:
查询执行期间,单次处理单个逻辑块11,以减少缓存未命中和函数调用的数量;
采用逻辑块11代数弥补单个DBMS体系结构中行存储和列存储之间的理论差距;
只在聚合运算符中实现逻辑块11。
综上所述,本申请提供的混合事务分析处理的数据仓库100,按照行存储和列存储的混合存储方式对元组数据进行存储,弥合了联机事务处理OLTP和联机分析处理OLAP之间的体系结构鸿沟,提高了混合事务分析处理HTAP响应效率。并且,存储策略采用预期访问的存储调整方案——对未来访问进行预期,根据预期对属性的访问热度指标进行赋值,根据热度指标调整存储方式,从而更贴合现实使用场景,进一步提高了响应效率。本申请还对元组数据进行逻辑抽象,以支持元组数据的索引能够跨越不同混合存储布局的执行查询操作,减少了解释开销,进一步提高了响应效率。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种混合事务分析处理的数据仓库,其特征在于,包括:
面向事务和分析的逻辑块;
根据预设操作指令,由逻辑块实体化的物理块;
根据预设存储策略,在物理块中按照行存储和列存储混合存储的属性和与属性对应的属性值。
2.如权利要求1所述的混合事务分析处理的数据仓库,其特征在于,所述属性具有访问热度指标;
所述物理块被配置为:
当属性的访问热度指标不小于预设访问热度指标阈值时,属性和与属性对应的属性值进行行存储;
当属性的访问热度指标小于预设访问热度指标阈值时,属性和与属性对应的属性值进行列存储。
3.如权利要求1所述的混合事务分析处理的数据仓库,其特征在于,两个所述属性之间具有关联度指标;
所述物理块被配置为:
当两个所述属性之间的关联度指标不小于预设关联度指标阈值时,两个所述属性和与属性对应的属性值连续存储。
4.如权利要求1所述的混合事务分析处理的数据仓库,其特征在于,所述逻辑块的属性和与属性对应的属性值按照列存储的方式进行存储。
5.如权利要求4所述的混合事务分析处理的数据仓库,其特征在于,所述逻辑块被配置为有且仅有一个属性映射物理块。
6.如权利要求1所述的混合事务分析处理的数据仓库,其特征在于,所述逻辑块与混合事务分析处理的数据仓库面向的事务的计划树直接关联。
7.如权利要求1所述的混合事务分析处理的数据仓库,其特征在于,所述逻辑块配置有逻辑块代数,以便映射在物理块中按照行存储和列存储混合存储的属性和与属性对应的属性值。
8.如权利要求1所述的混合事务分析处理的数据仓库,其特征在于,所述逻辑块被配置为:
根据混合事务分析处理的数据仓库的访问方法和输入谓词,实时构造逻辑块。
9.如权利要求1所述的混合事务分析处理的数据仓库,其特征在于,所述物理块被配置为:
根据预设操作指令,使用聚合函数实体化逻辑块,生成数据仓库的物理片。
10.如权利要求1所述的混合事务分析处理的数据仓库,其特征在于,所述混合事务分析处理的数据仓库还包括管道中断功能符,以便在物理块中对属性值事务操作之前中断分析。
CN202310311297.2A 2023-03-28 2023-03-28 混合事务分析处理的数据仓库 Active CN116028584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310311297.2A CN116028584B (zh) 2023-03-28 2023-03-28 混合事务分析处理的数据仓库

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310311297.2A CN116028584B (zh) 2023-03-28 2023-03-28 混合事务分析处理的数据仓库

Publications (2)

Publication Number Publication Date
CN116028584A true CN116028584A (zh) 2023-04-28
CN116028584B CN116028584B (zh) 2023-06-27

Family

ID=86074358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310311297.2A Active CN116028584B (zh) 2023-03-28 2023-03-28 混合事务分析处理的数据仓库

Country Status (1)

Country Link
CN (1) CN116028584B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177056A (zh) * 2011-12-22 2013-06-26 Sap股份公司 存储为行存储和列存储二者的混合数据库表
US20130275365A1 (en) * 2012-04-11 2013-10-17 Renmin University Of China Multi-Dimensional OLAP Query Processing Method Oriented to Column Store Data Warehouse
CN103631911A (zh) * 2013-11-27 2014-03-12 中国人民大学 基于数组存储和向量处理的olap查询处理方法
CN103942342A (zh) * 2014-05-12 2014-07-23 中国人民大学 一种内存数据库oltp&olap并发查询优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177056A (zh) * 2011-12-22 2013-06-26 Sap股份公司 存储为行存储和列存储二者的混合数据库表
US20130275365A1 (en) * 2012-04-11 2013-10-17 Renmin University Of China Multi-Dimensional OLAP Query Processing Method Oriented to Column Store Data Warehouse
CN103631911A (zh) * 2013-11-27 2014-03-12 中国人民大学 基于数组存储和向量处理的olap查询处理方法
CN103942342A (zh) * 2014-05-12 2014-07-23 中国人民大学 一种内存数据库oltp&olap并发查询优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JOY ARULRAJ 等: "Bridging the Archipelago between Row-Stores and Column-Stores for Hybrid Workloads", SIGMOD \'16: PROCEEDINGS OF THE 2016 INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA *

Also Published As

Publication number Publication date
CN116028584B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
US8332389B2 (en) Join order for a database query
US5551031A (en) Program storage device and computer program product for outer join operations using responsibility regions assigned to inner tables in a relational database
US6073129A (en) Method and apparatus for improving the performance of a database management system through a central cache mechanism
US7171399B2 (en) Method for efficient query execution using dynamic queries in database environments
US7533136B2 (en) Efficient implementation of multiple work areas in a file system like repository that supports file versioning
AU2005239366B2 (en) Partial query caching
US9298829B2 (en) Performing a function on rows of data determined from transitive relationships between columns
US7475056B2 (en) Query processing in a parallel single cursor model on multi-instance configurations, using hints
CN113688127B (zh) 数据压缩技术
Han et al. Scatter-gather-merge: An efficient star-join query processing algorithm for data-parallel frameworks
US6353819B1 (en) Method and system for using dynamically generated code to perform record management layer functions in a relational database manager
US6470331B1 (en) Very large table reduction in parallel processing database systems
Edara et al. Big metadata: when metadata is big data
US6253197B1 (en) System and method for hash loops join of data using outer join and early-out join
US20210286817A1 (en) System and method for disjunctive joins using a lookup table
US20230205769A1 (en) System and method for disjunctive joins
CN116028584B (zh) 混合事务分析处理的数据仓库
Arnold et al. HRDBMS: Combining the best of modern and traditional relational databases
Xu et al. Semantic connection set-based massive RDF data query processing in Spark environment
Schwarz et al. Improving the processing of decision support queries: the case for a DSS optimizer
Sejdiu et al. Towards a scalable semantic-based distributed approach for SPARQL query evaluation
Chlyah et al. Distributed Evaluation of Graph Queries using Recursive Relational Algebra
JP2780996B2 (ja) 問い合わせ最適化処理方法
US20020138464A1 (en) Method and apparatus to index a historical database for efficient multiattribute SQL queries
US6438536B1 (en) Method and system for dynamically generating code to enhance the performance of a relational database manager that provides access to a relational database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant