CN110168516A - 用于大规模并行处理的基于代价的动态计算节点分组优化 - Google Patents
用于大规模并行处理的基于代价的动态计算节点分组优化 Download PDFInfo
- Publication number
- CN110168516A CN110168516A CN201780075224.0A CN201780075224A CN110168516A CN 110168516 A CN110168516 A CN 110168516A CN 201780075224 A CN201780075224 A CN 201780075224A CN 110168516 A CN110168516 A CN 110168516A
- Authority
- CN
- China
- Prior art keywords
- data set
- cost
- calculate
- group
- hash
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24542—Plan optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24542—Plan optimisation
- G06F16/24544—Join order optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24532—Query optimisation of parallel queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24542—Plan optimisation
- G06F16/24545—Selectivity estimation or determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
Abstract
大规模并行处理无共享关系数据库管理系统包括分配给多个计算节点的多个存储器。所述系统包括具有指令的非瞬时性存储器和与所述存储器通信的一个或多个处理器。所述一个或多个处理器执行所述指令以用于:将数据集存储在所述多个存储器中的第一组存储器中;将所述第一数据集哈希成重新分区的数据集;将所述第一组存储器重新分配给所述多个计算节点中的第二组计算节点;将所述重新分区的数据集分发到所述第二组计算节点;通过所述第二组计算节点对所述重新分区的数据集执行数据库操作。
Description
本发明要求2016年12月9日递交的发明名称为“用于大规模并行处理的基于代价的动态计算节点分组优化”的第15/374,158号美国非临时专利申请案的在先申请优先权,该在先申请的内容以引入的方式并入本文中。
背景技术
大规模并行处理(massively parallel processing,简称MPP)无共享关系数据库管理系统(relational database management system,简称RDBMS)通常包括多个无共享节点。一个无共享节点可以包括耦合到至少一个计算节点的至少一个存储器。通常,在MPP无共享RDBMS中,将若干存储器静态分配给特定无共享节点中的若干计算节点。
在处理对MPP无共享RDBMS的查询时,可能需要对数据进行重新分区,并将所述数据从一个无共享节点传输到另一个无共享节点,其中,所述另一个无共享节点存储可能需要对该查询做出响应的其它数据。这种在存储器和计算节点之间静态分配的架构可能会导致某些计算节点使用不足或过度使用。此外,特定计算节点还可能被检索对该查询做出的响应的次优逻辑计划低效使用,而非有效使用存储器和计算节点的逻辑计划。
发明内容
在第一实施例中,本技术涉及一种大规模并行处理无共享关系数据库管理系统,其包括分配给多个计算节点的多个存储器。所述系统包括一个或多个处理器,其中,所述一个或多个处理器与用于存储指令的非瞬时性存储器通信。所述一个或多个处理器执行所述指令以用于:将数据集存储在所述多个存储器中的第一组存储器中,其中,所述第一组存储器分配给所述多个计算节点中的第一组计算节点;通过哈希对所述数据集进行重新分区得到重新分区的数据集;将所述第一组存储器重新分配给所述多个计算节点中的第二组计算节点;将所述重新分区的数据集重分布到所述第二组计算节点;通过所述第二组计算节点对所述重新分区的数据集执行数据库操作。
根据所述第一实施例的第二实施例,其中,所述对所述数据集进行重新分区包括通过哈希形成所述数据集的较小哈希桶。
根据所述第一实施例的第三实施例,其中,当重新分区键与用于对所述数据集进行分区的键相同时,则省略所述重新分区。
根据所述第一实施例的第四实施例,其中,所述重新分配包括在所述第一组存储器和所述第二组计算节点之间形成网络连接,所述分发包括通过所述网络连接将所述重新分区的数据集分发给所述第二组计算节点。
根据所述第四实施例的第五实施例,其中,所述第一组存储器和所述第一组计算节点在所述系统中形成无共享节点,所述数据库操作包括内部连接、扫描和重分布中的至少一个。
根据所述第一实施例的第六实施例,还包括所述一个或多个处理器执行所述指令以用于:获取多个逻辑计划,其中包括对存储在所述第一组存储器中的数据集进行的所述数据库操作;针对所述多个逻辑计划中的每个逻辑计划确定将所述数据集重分布到至少一个其他计算节点的代价;还针对所述多个逻辑计划中的每个逻辑计划确定通过分区间并行降低的代价;基于重分布所述数据集的代价以及所述通过分区间并行降低的代价,从所述多个逻辑计划中选择最优逻辑计划。
在另一实施例中,本技术涉及一种计算机实现的用于访问数据的方法。所述方法包括:获取多个逻辑计划以响应查询;针对所述多个逻辑计划中的每个逻辑计划确定将存储在分配给计算节点的存储器中的数据集重分布到至少一个其他计算节点的代价;还针对所述多个逻辑计划中的每个逻辑计划确定通过分区间并行降低的代价;基于重分布所述数据集的代价以及所述通过分区间并行降低的代价,从所述多个逻辑计划中选择逻辑计划。
在又一实施例中,本技术涉及一种用于存储计算机指令的非瞬时性计算机可读介质,其中,当一个或多个处理器执行所述计算机指令时,使得所述一个或多个处理器执行以下步骤。所述步骤包括:将数据集存储在多个存储器中的第一组存储器中,其中,所述第一组存储器分配给多个计算节点中的第一组计算节点;获取多个逻辑计划以响应访问所述数据集的查询;针对所述多个逻辑计划中的每个逻辑计划确定将所述第一组存储器中存储的数据集重分布到第二组计算节点的代价;针对所述多个逻辑计划中的每个逻辑计划确定通过分区间并行降低的代价;基于重分布所述数据集的代价以及所述通过分区间并行降低的代价,从所述多个逻辑计划中选择逻辑计划;通过哈希对所述数据集进行重新分区得到重新分区的数据集;将所述第一组存储器重新分配给所述第二组计算节点;将所述重新分区的数据集分发到所述第二组计算节点;通过所述第二组计算节点对所述重新分区的数据集执行数据库操作,以提供对所述查询的应答。
提供本发明内容是为了以简化的形式引入概念的选择,这些概念将在以下具体实施方式中进行进一步的描述。本发明内容和/或标题的目的不在于识别权利要求书保护的主题的关键特征或必要特征,也不在于协助确定权利要求书保护的主题的范围。权利要求书保护的主题不限于用于解决在背景技术中提到的任何或全部缺点的实现方式。
附图说明
图1A为本技术实施例提供的一种MPP无共享RDBMS的方框图;
图1B-C示出了本技术实施例提供的与图1中所示系统关联的各表;
图2示出了本技术实施例提供的语法查询解析树和关联逻辑计划;
图3示出了本技术实施例提供的具有估计代价的逻辑计划以及选择具有最低估计代价的逻辑计划;
图4为本技术实施例提供的静态存储器组和动态计算组的方框图;
图5示出了本技术实施例提供的获取多个逻辑计划以响应查询的过程;
图6A示出了本技术实施例提供的代价结构;
图6B示出了本技术实施例提供的数据重分布代价;
图6C示出了本技术实施例提供的通过分区间并行降低的代价;
图7示出了本技术实施例提供的确定与多个逻辑计划关联的总代价;
图8为本技术实施例提供的一种用于动态计算节点分组的方法的流程图;
图9A-C为本技术实施例提供的一种用于从多个逻辑计划中选择最优逻辑计划的方法的流程图;
图9D为本技术实施例提供的一种用于选择最优逻辑计划和节点分组的方法的流程图;
图10为本技术实施例提供的一种硬件架构的方框图;
图11是为本技术实施例提供的一种软件架构的方框图。
除非另有指示,否则不同图中的对应标号和符号通常指代对应部分。绘制各图是为了清楚地说明实施例的相关方面,因此未必是按比例绘制的。
具体实施方式
本技术通常涉及动态计算节点分组,其中,所述动态计算节点分组将大规模并行处理(massively parallel processing,简称MPP)无共享关系数据库管理系统(relational database management system,简称RDBMS)中的存储和计算解耦。本技术通过MPP节点之间的数据重分布实现了支持更高的分区间处理并行度的灵活性。动态计算节点分组还会为查询或计划优化器增加另一维度,以便在构建提供对查询做出的响应的最优逻辑计划时加以考虑。
数据倾斜感知代价模型可用于在所述查询处理管道的正确阶段选择最佳计算节点组。数据倾斜感知代价模型使计划优化器能够根据表统计信息以及从中间结果导出的统计信息,分析和比较通过网络重分布数据的估计代价和通过分区间并行降低的代价。
具有多个计算节点的MPP无共享RDBMS可提供自动查询优化和执行。计算节点可以包括分配或耦合到至少一个计算节点的至少一个存储器。在各实施例中,计划优化器选择最优逻辑计划以响应接收的查询,并形成一个或多个计算节点组以执行所述最优逻辑计划。在各实施例中,MPP无共享RDBMS包括计划优化器和动态计算节点组软件组件,用于选择所述最优逻辑计划并动态分组所述计算节点以执行所述最优逻辑计划。在各实施例中,MPP无共享RDBMS解耦存储和计算层(或分配的组)以高效执行复杂的查询。所述选择的最优逻辑计划可以访问存储在多个不同大小的存储器组中的数据集(或表)中,所述系统通过存储所述表的多个存储器对多个计算节点进行动态分组来执行所述最优逻辑计划。
可以理解的是,本技术可以以许多不同的形式实现,并且不应视为对本文所阐述的实施例的限制。相反,提供这些实施例是为了透彻完整地理解本发明。事实上,本发明公开旨在覆盖包括在由所附权利要求书限定的本发明公开的精神和范围内的这些实施例的替代物、修改和等同物。另外,下文描述中陈述许多具体细节,以对本技术各实施例进行通彻理解。然而,可以清楚的是,实际应用中,可以不包括本技术的这样特定细节。
在一实施例中,RDBMS是一种计算机实现的数据库管理系统,其采用关系方法存储和检索数据。关系数据库是计算机化的信息存储和检索系统,其通常存储表格形式的数据(也称为“关系”)以在存储器上使用,例如处理器可读存储器。“表”包括一组跨多列的行(也称为“元组”或“记录”)。表中的每一列都包含对其数据内容的“限制”,在各实施例中可以指定为主键或外键。
RDBMS结构化为接受采用例如结构化查询语言(structured query language,简称SQL)等高级查询语言存储、检索和删除数据的语句。所述术语“查询”表示用于从存储的数据库检索数据的一组语句。SQL标准已由国际标准协会颁布。SQL标准的示例可包括由ANSI发布的SQL-92标准“数据库语言SQL”,即ANSI X3.135-1992,以及由ISO发布的SQL-92标准“数据库语言SQL”,即ISO/IEC 9075:1992,用作所述结构化查询语言1992年版本的官方规范。
MPP无共享架构是一种实现方式,其中每个计算节点包括计算节点,所述计算节点包含至少一个具有本地存储器的处理器,以及分配的存储器,所述分配的存储器可包括直接访问存储设备(direct access storage device,简称DASD),例如,磁盘驱动器。所有处理器间通信都通过使用耦合所述计算节点或处理器的网络上传输的消息实现。在一实施例中,这种类型的系统架构称为MPP系统。虽然此架构可能是最具可扩展性的架构,但它需要复杂的处理器间通信设施来在处理器之间发送消息和数据。MPP无共享RDBMS架构实施例可能有多种实施方式,例如IBM DB2DPF、Pivotal Greenplum、Amazon RedShift、ActianMatrix等。
计算节点组(或节点组)是MPP计算节点的分区,在一实施例中可包括一个或多个MPP无共享计算节点。在一实施例中,在MPP无共享RDBMS中可以分配多个MPP节点组,其中一组特定数据(或特定表)可以静态存储在一个节点组中。可以通过指定的分区方法将表存储在所述分配的节点组的存储器中。特定的分区方法可以使用哈希、全距法和/或循环方法。查询可以在一个节点组中处理。当连接数据库操作需要连接不同节点组上存储的表时,其中一个表需要重新分区并传送到另一个表的节点组中,以便执行共定位的连接数据库操作。
重分布操作包括处理查询的数据库操作,其中,在一实施例中,通过哈希分区方法对数据集进行重分区,并将所述重新分区的数据分发到目标节点组中。根据所述节点组定义或分配,重分布操作可能会也可能不会产生网络流量。
广播操作包括处理查询的数据库操作,其中,在一实施例中,将数据集复制并传送到目标节点组的每个存储器中。
分区间并行是指将数据库操作细分为多个部分,然后在分区数据库的一个或多个分区(这些分区可能位于一个或多个计算节点上)上并行执行所述多个部分。使用分区间并行时,使用的并行度在很大程度上取决于创建的分区数量以及节点组的定义或分配方式。
通常,将计算层(或特定计算节点)紧密耦合或静态分配给MPP无共享RDBMS中的存储层(或特定存储器)。例如,系统可以将许多连接操作中涉及的表分配给具有相同分区策略的同一节点组,以便可以将并置的连接用于组节点之间的零数据重排,从而可以实现更高性能。
相比之下,较小的表可能会分配或存储在单个节点或较小的节点组中,以使小表在访问时不会消耗太多资源。繁重事务操作涉及的表而不是主要参与决策支持查询的表可能会被分配给不同的节点组。
但是,有时可能需要将来自不同节点组的表连接在一起才能对查询产生有意义的响应。类似地,来自一个节点组的表可能会大量聚合,而来自其它节点组的表可能很少被访问。在这些场景中,MPP无共享RDBMS可能只考虑一个节点组(所述表静态驻留的节点组)来处理整个查询,而来自不同节点组的表在连接的情况下需要根据哈希策略重新分区,并通过网络重分布到所述连接涉及的另一个表的同一节点组。
可以看出,在这些场景中可能未充分利用资源(一个或多个节点组),因为所述计算中不涉及其中部分节点。一种方法是启发式指示查询优化器使用更多节点或更大的节点组来处理所述查询。但是,由于不考虑单独运营代价和总计划代价(或总代价),这种方法可能效率低下。通过网络向计算中使用的目标节点传输数据所产生的开销代价可能被所述目标节点中分区间并行的优势抵消。在处理查询时,智能且动态地选择特定阶段的若干最佳计算节点可以提高MPP无共享RDBMS的效率和性能。
图1示出了MPP无共享RDBMS 100中的动态计算节点组110和计划优化器111,其中,所述MPP无共享RDBMS 100选择一个最佳计算节点组用于处理基于各种操作代价对接收到的查询做出响应(应答)的最优逻辑计划。正如本领域普通技术人员所了解的,为了清楚地说明本技术,未示出MPP无共享RDBMS 100的各部分。在一实施例中,动态计算节点组110和计划优化器111是计算设备101执行的软件组件。在一实施例中,计算设备101通过网络102耦合到计算节点NG0。在一实施例中,计算设备101可以是控制器。
MPP无共享RDBMS 100通常被划分为多个节点组,例如节点组NG1和节点组NG2,其包含各种大小的数据集,例如表T1和表T2。对查询的响应可能需要特定节点组执行数据库操作,例如扫描、聚合、重分布或(内部)连接数据库操作。为了将两个表连接到一起(例如表T1和表T2),需要通过一致的哈希方法将所述两个参与表的连接键分区到同一节点组中。由于节点组通常通过数据定义语言(data definition language,简称DDL)命令静态创建,并且表被静态分配给相应的节点组,因此某些算子例如扫描由于所述无共享架构而只能在该特定节点组内执行。
但是,一旦将表(或数据集)从存储器中加载到MPP节点的存储器中,所述数据集可以通过另一种哈希方法重新分区,并由重分布算子通过网络102传输到其它计算节点。在一实施例中,计算节点不受存储层(或存储器)约束,并且可以弹性或动态增加以实现更高的分区间并行度。在一实施例中,计算设备101执行的动态计算节点组110执行该功能。
在一实施例中,与静态节点组相比,用户不必手动创建动态节点组。节点组中的所有计算节点均可视为一个动态计算节点组,除非用户由于资源限制要求等原因专门限制此节点组的大小。
虽然可以将数据重新分区并重分布到更大的动态节点组以获得更高并行处理能力,但是网络102的重分布代价会被视为这种系统的瓶颈。为了确定用于计算的最佳节点组而不牺牲过多的通过网络102在计算节点之间传输数据的代价,可以通过更多计算节点来平衡数据重分布代价与通过实现更高并行度而降低的代价,从而进行后续查询处理。
例如,考虑对包含4个计算节点的小节点组NG1中的小表T1进行简单的连接操作;从包含6个计算节点的大节点组NG2连接大表T2。在节点组NG0(包括节点组NG1和NG2)中,共有10个计算节点(节点1-10)被视为一个动态计算节点组。为了执行此连接,典型的MPP无共享RDBMS可能会生成计划,将表T1重分布到所述较大的节点组NG2,并使用存储在节点组NG2内的表T2完成该连接。MPP无共享RDBMS 100会将所述动态计算节点组包括在多个重分布策略中,并仔细评估每个重分布策略的代价:
1、表T1重分布/广播到节点组NG2,然后连接表T2;
2、表T2重分布/广播到节点组NG1,然后连接T1;
3、表T1和表T2均重分布到节点组NG0,然后执行该连接。
在一实施例中,然后以自下而上的方式递归进行代价评估,直至一组完整的逻辑计划用于所述查询,其中,每个逻辑计划都具有通过网络102重分布数据的总代价以及通过分区间并行降低的算子代价。在一实施例中,计划优化器111从一组可能的(或候选)逻辑计划中选择最优逻辑计划,以通过选择总代价最低的逻辑计划来响应所述查询。需要注意的是,在上述重分布策略#3中,虽然表T1和表T2都被重分布到最大的节点组NG0中,这可能会在数据重分布上造成比其它两个重分布策略#2和#3更高的代价,但重分布策略#3的总代价实际上可能更低,因为它能使更多计算节点参与后续数据库操作,例如另一个连接算子或排序算子等。当计划优化器111获得一组逻辑计划以响应总代价非常相似(例如,在1%的误差容限内)的所有查询时,在一实施例中,计划优化器111选择使用数量最少的计算节点的逻辑计划。
下文介绍了通过动态计算节点组110和计划优化器111为特定查询选择特定最优逻辑计划和特定计算节点组的示例。如上所述,图1示出了MPP无共享RDBMS 100,包括节点组NG0,其中,所述节点组NG0被划分为用于存储表T1和表T2的更小节点组NG1和NG2。
表示MPP无共享RDBMS 100节点分组的元信息可以按图1B所示的表150的形式存储在数据库目录中。同样,表T1和较大的表T2分别分配给节点组NG1和NG2。关系与节点组之间的这种映射关系可以按图1C中所示的表180的形式在另一数据库目录中表示。在各实施例中,包括表150和表180的数据库目录可以存储在图10所示的计算设备101的存储器1020中。
如图5和下文所示的示例性查询500可以提交到MPP无共享RDBMS 100:
从T1、T2中选择T1.a,其中,T1.a=T2.b分组依据T1.a;
其中,T1被哈希分发在(T1.a,NG1)上,T2被哈希分发在(T2.b,NG2)上。所述语法查询解析树200如图2所示。
图3示出了本技术实施例提供的具有估计总代价的逻辑计划以及选择具有最低估计总代价的逻辑计划。计划优化器111通过获得与逻辑计划NG0、NG1和NG2相关的估计总代价Z、X和Y中的最低估计总代价,在选择最优逻辑计划时具有类似于漏斗300的功能。比较所述估计的总代价Z、X和Y,并在一实施例中选择与所述最低估计总代价相关的逻辑计划。
根据一组预定义规则和数据库目录中的元信息,查询500将在查询编译期间在语法上重写为等效查询算子,并进一步转换为一组优化逻辑计划。在一实施例中,计划优化器111执行该功能。从图2、3和7所示的候选逻辑计划中可以看出,有三种执行所述连接和分组依据操作的方法。
计划NG1:将T2重分布到NG1中,并在NG1中连接T1和T2,也在NG1中执行转换为哈希聚合的后续分组依据操作。
计划NG2:将T1重分布到NG2中,并在NG2中连接T1和T2,然后在NG2中执行后续哈希聚合。
计划NG3:将T1和T2重分布到NG0中,并在NG0内执行连接和所述后续哈希聚合。
可以看出,计划NG0、NG1和NG2之间的主要区别在于,动态计算节点组由动态计算节点组110和数据库目录中的信息组成。计划NG0使用所有计算节点执行所述连接和哈希聚合操作,而在一实施例中,所述计划NG1和NG2仅使用计算节点的子集。
在一实施例中,计划优化器111随后将枚举每个逻辑计划,并仔细计算每个算子的代价并求和,以获得每个逻辑计划的总代价。为了计算动态节点组引入的额外维度的总代价,在所述逻辑计划评估过程中会保留一些新变量。这些新变量包括数据重分布到目标节点组的代价(重分布的代价)以及所述目标节点组中通过分区间并行降低的代价。
图6A示出了动态组信息的代价结构或模型以及分区间并行度。代价值是一个查询算子的估计代价。P是一种用于表示分区间并行度的数据结构。NG是用于算子(操作)的节点组的标识,其中,变量D是将参与所述操作的计算节点的估计数量。在一实施例中,变量D表示为:
D=min(ndistinct,sizeNG)×倾斜因子 (1)
ndistinct是指连接键的列基数或对哈希处理的列进行重分布的列基数。这可以从基表的目录列统计信息中获得,也可以从所述重分布的数据恰好是中间结果时导出的统计信息中获得。sizeNG是指所述目标节点组的大小。
需要注意的是,由于哈希分区可能引入数据倾斜(或倾斜因子),上述代价表示中的变量D可能等于或可能不等于所述参与节点组的大小(此处的大小指节点组中的节点数量)。变量D背后的基本原理是将数据倾斜的影响模型化成如下所述的并行度。
为了计算数据重分布代价,应在所述目标节点组中使用的哈希分区方法的上下文中理解MPP无共享RDBMS中的重分布操作。这是为了确保重分布后的最终结果与目标节点组中的表共享完全相同的哈希分区策略,从而使来自两个表的数据能够正确地连接。尽管哈希桶可能会在所述节点组中随机分发以避免数据倾斜,但所述数据的值本身的分发和使用的哈希方法仍然可能会引入一定程度的倾斜,因此如图6A和下文所示引入了倾斜因子。
倾斜因子用于进一步评估在重分布后每个计算节点上的数据倾斜。倾斜因子可以表示为浮点数,范围为:
倾斜因子可以通过查看所述基表的直方图或导出的统计信息并计算中间结果的表基数或复合基数中MCV(最常见值)的百分比计算。
以下场景示出了变量D(或预计参与操作的计算节点数量)的计算模型:
首先,被重分布的列的不同值比所述目标节点组中的节点数少,然后可以知道,只有通过哈希方法重分布后计算节点的不同值的数量才将会保留数据,否则它将是所述目标节点组的大小。
其次,一旦数据被分发到计算节点K上,在最佳场景中,所有节点都会接收相同数量的数据,并且所述倾斜因子将为1,而最坏情况是一个节点接收大部分数据,并且所述倾斜因子将接近1/K。
一旦计算出变量D的值,就可以通过倾斜感知很好地估计出分区间并行度,并且可以进一步计算数据重分布代价,如下文和图6B所述。
例如,在图4中,逻辑计划NG0用于演示如何将数据从静态节点组NG1重分布到动态计算节点组NG0,如MMP无共享RDBMS 400所示。MMP无共享RDBMS 400包括节点组NG1,所述节点组NG1包括四个存储器1-4,所述存储器1-4通过网络102耦合到具有计算节点1-10的节点组NG0。在一实施例中,计算设备101耦合到网络102,如图1所示。
如图4所示,需要将节点组NG1中的表T1重新划分为一系列哈希桶B1-B12(不同的数据库系统可能使用不同大小的哈希桶)。然后,根据表150中记录的与节点组NG0关联的哈希桶到节点映射,将所述哈希桶B1-B12分发到节点组NG0中的计算节点(节点1-10)。在某些示例中,较大的哈希桶可能会重新分区为较小的哈希桶。在一实施例中,所述总RedisCost可以分为哈希函数的代价加上通过网络102发送数据的代价,如图6B中所示的RedisCost公式所示。
或者,在图6B所示的RedisCost实施例中,数据重分布代价可以解释为固定数据量的前期哈希代价,其表示为通过具有固定单通道网络速度S(平均传输速度)乘以变量D(具有倾斜因子的分区间并行度)的网络传输大量数据。对于在节点组之间重分布数据的所用时间,这种重分布数据的估计代价可能相当准确。但是,可能需要考虑在同一计算节点内传输数据。例如,图4中的一些哈希桶在同一节点之间传输,因为节点组NG1是节点组NG0的子集。对于从节点组NGx向节点组NGy传输数据不会产生任何网络流量(所有数据在一台物理机器中重排)的特例,可以对变量S进行调整,以降低计算Rediscost时的传输代价。
在图5所示的逻辑计划NG1、NG2和NG0中,需要注意的是,剩余的内部哈希连接和哈希聚合操作/步骤是在所述目标计算节点组内从所述数据集的重分布开始执行的。借助从所述重分布步骤中导出的变量D,可以通过将哈希连接或哈希聚合操作的典型算子代价除以变量D(具有倾斜因子的分区间并行度)来获取估计的并行降低代价。哈希连接或哈希聚合操作的代价可以由特定系统定义或从统计信息中获取。因此,在一实施例中,估计的通过分区间并行度D(IPParallCostReduction)降低的代价等于:或如图6C所示。这种估计的降低代价IPParallCostReduction提供一个总概念,说明在所述目标节点组内使用了多少计算能力,以及在运行所用时间内产生了多少代价。
图7示出了本技术实施例提供的确定与多个逻辑计划关联的代价。特别地,图7示出了如何通过考虑数据重分布代价和随后分区间并行降低的代价来计算与逻辑计划NG1、NG2和NG0关联的总估计代价X、Y和Z。图7示出了总估计代价Z(以及总估计代价X和Y)是每个数据库操作的代价,例如代价1,以及与逻辑计划NG0中的扫描(T1,NG1)数据库操作关联的统计信息的代价总和。在一实施例中,总估计代价Z是与至少6个数据库操作相关联的6种代价的函数。每个数据库操作的每个代价还包含每个中间结果/步骤的关联统计信息(统计信息)或直方图信息。
通过重分布到不同计算节点组的代价和随后分区间并行降低的代价两者的综合代价视图,计划优化器111能够确定在正确步骤中待使用的最佳计算节点组。假设在数据均匀分发的场景中,当所述连接和分组依据操作比通过网络重新分区和分发数据更密集时,则更可能选择计划NG0,因为处理所述连接和聚合数据库操作将涉及更多计算节点。当大量数据通过网络分发时,则更可能选择计划NG2,但所述后续连接和分组依据操作的负载较轻。计划NG1可能会在优化的早期阶段进行精简,以节省搜索空间,因为计划NG1的并行度低于计划NG0和NG2。
图8为本技术实施例提供的一种用于动态计算节点分组的方法的流程图。图9A-C为本技术实施例提供的一种用于从多个逻辑计划中选择最优逻辑计划的方法的流程图。图9D为本技术实施例提供的一种用于从多个逻辑计划中选择最优逻辑计划和用于动态计算节点分组的方法的流程图。
在各实施例中,图9A-D中的流程图是至少部分由图1、图4和图10-11中所示的硬件和软件组件执行的计算机实现的方法,如下所述。在一实施例中,图11中所示的软件组件由一个或多个处理器执行,例如图10中所示的处理器1010,执行所述方法中的至少一部分。
图8为本技术实施例提供的一种用于动态计算节点分组的方法800的流程图。在图8中的步骤801,将数据集存储在多个存储器中的第一组存储器中,其中,所述第一组存储器分配给多个计算节点中的第一组计算节点。在一实施例中,将数据集例如表T1存储在节点组NG1的存储器1-4中,如图4所示。在一实施例中,处理器1010执行软件组件以存储所述数据集。
在步骤802,通过哈希对所述数据集进行重新分区得到重新分区的数据集。在一实施例中,由处理器1010执行的动态计算节点组110,尤其是重新分区110a,执行该功能的至少一部分,如本文所述和图10-11所示。当重新分区键与在实施例中用于对所述数据集进行分区的键相同时,则可以省略所述重新分区。
在步骤803,将所述第一组存储器重新分配给所述多个计算节点中的第二组计算节点。在一实施例中,由处理器1010执行的动态计算节点组110,尤其是分配110b,执行该功能的至少一部分。特别地,为响应计算设备101通过网络接口1050生成的信号,重新配置网络102。
在步骤804,将所述重新分区的数据集分发(或重分布)到所述第二组计算节点。与上述类似,处理器1010和动态计算节点组110,尤其是重分布110c,执行该功能的至少一部分。
在步骤805,通过所述第二组计算节点对所述重新分区的数据集执行数据库操作,例如图4中所示的节点组NG0中的计算节点1-10。在各实施例中,数据库操作可以包括但不限于哈希聚合(hash aggregate,简称HashAgg)、内部哈希连接、扫描、重分布、内部连接或分组依据操作。
图9A为本技术实施例提供的一种用于获取用于响应RDBMS查询的最优逻辑计划的方法900的流程图。在图9A中的步骤901,获取多个逻辑计划以响应查询,例如对MPP无共享RDBMS的查询。在一实施例中,由处理器1010执行的计划优化器111,尤其是计划111d,执行该功能的至少一部分,如本文所述和图10-11所示。在一实施例中,从句法查询解析树中获取多个逻辑计划。
在步骤902,针对所述多个逻辑计划中的每个逻辑计划确定将存储在分配给计算节点的存储器中的数据集重分布到至少一个其他计算节点的代价。在一实施例中,由处理器1010执行的计划优化器111,尤其是数据重分布代价111a,执行该功能的至少一部分。
在步骤903,针对所述多个逻辑计划中的每个逻辑计划确定通过分区间并行降低的代价。在一实施例中,由处理器1010执行的计划优化器111,尤其是并行降低代价111b,执行该功能的至少一部分。
在步骤904,基于重分布所述数据集的代价以及所述通过分区间并行降低的代价,从所述多个逻辑计划中选择最优逻辑计划。在一实施例中,由处理器1010执行的计划优化器111,尤其是计划111d,执行该功能的至少一部分。在一实施例中,选择总估算代价最低的逻辑计划,如本文实施例所述和图3和图7所示。
图9B为本技术实施例提供的一种用于计算重分布数据集的代价的方法950的流程图。在一实施例中,方法950执行上述图9A中步骤902的功能。在一实施例中,由处理器1010执行的计划优化器111,尤其是数据重分布代价111a,执行该功能的至少一部分,以及方法950中的其它功能,如本文所述和图10-11所示。
在步骤951,计算所述数据集中待处理的元组数量。
在步骤952,计算所述数据集中元组的宽度。
在步骤953,计算所述数据集的哈希代价因子。
在步骤954,计算耦合到至少所述存储器和至少一个其他计算节点的网络的平均数据传输速度。
在步骤955,计算使用倾斜因子的分区间并行度。
在步骤956,计算重分布所述数据集的代价,以至少响应所述待处理的元组数量、所述元组的宽度、所述哈希代价因子、所述平均数据传输速度以及所述使用倾斜因子的分区间并行度。
图9C为本技术实施例提供的一种用于计算使用倾斜因子的通过分区间并行降低的代价的方法980的流程图。在一实施例中,方法980执行上述图9A中步骤903的功能。在一实施例中,由处理器1010执行的计划优化器111,尤其是并行降低代价111b,执行该功能的至少一部分,以及方法980中的其它功能,如本文所述和图10-11所示。
在步骤981,计算对所述数据集进行哈希连接的算子代价。
在步骤982,计算对所述数据集进行哈希聚合的算子代价。
在步骤983,计算所述数据集的哈希代价因子。
在步骤984,计算使用倾斜因子的分区间并行度。在一实施例中,由处理器1010执行的计划优化器111,尤其是倾斜因子111c,执行该功能的至少一部分。
在步骤985,计算所述通过分区间并行降低的代价,以响应所述哈希连接的算子代价或所述哈希聚合的算子代价以及所述使用倾斜因子的分区间并行度。
图9D为本技术实施例提供的一种用于从多个逻辑计划中选择最优逻辑计划和用于动态计算节点分组的方法990的流程图。在一实施例中,由处理器1010执行的计划优化器111和动态计算节点组110执行该功能的至少一部分,如本文所述和图10-11所示。
在步骤991,将数据集存储在多个存储器中的第一组存储器中,其中,所述第一组存储器分配给多个计算节点中的第一组计算节点。
在步骤992,获取多个逻辑计划以响应访问所述数据集的查询。
在步骤993,针对所述多个逻辑计划中的每个逻辑计划确定将所述第一组存储器中存储的数据集重分布到第二组计算节点的代价。
在步骤994,针对所述多个逻辑计划中的每个逻辑计划确定通过分区间并行降低的代价。
在步骤995,基于重分布所述数据集的代价以及所述通过分区间并行降低的代价,从所述多个逻辑计划中选择逻辑计划。
在步骤996,通过哈希对所述数据集进行重新分区得到重新分区的数据集。
在步骤997,将所述第一组存储器重新分配给所述第二组计算节点。
在步骤998,将所述重新分区的数据集重分布到所述第二组计算节点。
在步骤999,通过所述第二组计算节点对所述重新分区的数据集执行数据库操作,以提供对所述查询的应答。
图10示出了一种用于计算设备101的硬件架构1000,其中,所述硬件架构1000用于形成动态计算节点组并选择用于响应查询的最优逻辑计划。计算设备101可以包括处理器1010、存储器1020、用户接口1060和由互连1070耦合的网络接口1050。互连1070可以包括用于传递具有一种或多种类型的架构的信号的总线,例如存储器总线、内存控制器或外围总线等。
计算设备101可以在各实施例中实现。在各实施例中,计算设备可以利用所示的全部硬件和软件组件,或者组件的子集。集成程度可以根据实施例而变化。例如,存储器1020可以包括多个存储器。此外,计算设备101可包括组件的多个实例,例如多个处理器(核)、存储器、数据库、发射器、接收器等。计算设备101可包括处理器,该处理器配备有一个或多个输入/输出设备,例如网络接口和存储接口等。
在一实施例中,计算设备101可以是访问与存储在数据库中的蜂窝网络相关的大量数据的大型计算机或者其一部分。在替代实施例中,计算设备101可以体现为不同类型的计算设备。在一实施例中,计算设备类型包括但不限于控制器、笔记本电脑、台式计算机、嵌入式计算机、服务器、大型机和/或超大型机(计算机)。
存储器1020存储动态计算节点组110和计划优化器111,其包括计算机程序中包含的计算机指令。在各实施例中,其它计算机程序,例如具有调度器、应用程序和数据库的操作系统存储在存储器1020中。在一实施例中,用于存储和检索数据的计算机程序存储在存储器1020中。在替代实施例中,网络1103中包括MPP无共享RDBMS系统,所述系统具有通过网络耦合到多个计算节点的多个存储器,其中,计算设备101可以访问所述网络1103。
在一实施例中,处理器1010可以包括具有一个或多个核的一种或多种类型的电子处理器。在一实施例中,处理器1010是一种集成电路处理器,其执行(或读取)存储在非瞬时性存储器中的代码和/或计算机程序可包括的计算机指令,以提供本文所述的至少一些功能。在一实施例中,处理器1010是能够执行多个线程的多核处理器。在一实施例中,处理器1010是数字信号处理器、基带电路、现场可编程门阵列、数字逻辑电路和/或等效器件。
执行线程(线程或超线程)是一系列计算机指令,在一实施例中可以独立管理所述指令。可能包含在操作系统中的调度器也可以管理线程。线程可以是进程的组成部分,在一个进程中可以存在多个线程,同时执行(一个线程在其它进程结束之前启动)和共享资源例如内存,而不同的进程不共享这些资源。在一实施例中,进程的线程共享其指令(可执行代码)和上下文(所述进程的变量在任何特定时间的值)。
存储器1020可包括任何类型的系统存储器,例如静态随机存取存储器(staticrandom access memory,简称SRAM)、动态随机存取存储器(dynamic random accessmemory,简称DRAM)、同步DRAM(synchronous DRAM,简称SDRAM)、只读存储器(read-onlymemory,简称ROM)或其组合等。在一实施例中,存储器1020可包括在开机时使用的ROM,以及在执行指令时使用的存储程序和数据的DRAM。在各实施例中,存储器1020是非瞬时性或非易失性集成电路存储器。类似地,本文所述的存储器可以是非瞬时性或非易失性集成电路存储器。
此外,存储器1020可以包括任何类型的存储设备,用于存储数据、包括指令的计算机程序和其它信息,并使数据、计算机程序和其它信息通过互连1070能够被访问。存储器1020可以包括,例如,固态驱动器、硬盘驱动器、磁盘驱动器、光盘驱动器等中的一种或多种。类似地,在各实施例中,本文所述的存储器可以是固态驱动器、硬盘驱动器、磁盘驱动器、光盘驱动器等中的一种或多种。
计算设备101还包括一个或多个网络接口1050,所述网络接口1050可以包括有线链路,例如以太网电缆等,和/或接入网络1003的无线链路。网络接口1050允许计算设备101与网络1003通信。例如,网络接口1050可以提供控制信号以更改或重新分配网络1003中多个存储器和多个计算节点之间包括信号路径的网络连接。类似地,网络接口1050可以向网络1003中的多个存储器和多个计算节点提供数据和控制信号,以实现存储、重新分区和重分布数据等功能。
在一实施例中,网络1003可以包括单独或组合的有线或无线连接。在一实施例中,网络1003可包括单独或组合的因特网、广域网(wide area network,简称WAN)或局域网(local area network,简称LAN)。
在一实施例中,网络1003可以包括高速分组接入(high speed packet access,简称HSPA)网络或其它合适的无线系统,例如无线局域网(wireless local area network,简称WLAN)或Wi-Fi(电气和电子工程师学会(Institute of Electrical and ElectronicsEngineers,简称IEEE)802.11x)。在一实施例中,计算设备101使用一种或多种协议来传输信息或报文,例如,传输控制协议/因特网协议(transmission control protocol/Internet protocol,简称TCP/IP)报文。
在各实施例中,计算设备101包括输入/输出(input/output,简称I/O)计算机指令以及硬件组件,例如通过网络1003从其它计算设备和/或网络接收和输出信息的I/O电路。在一实施例中,I/O电路可以至少包括发射器电路和接收器电路。
在各实施例中,用户接口1060可以包括计算机指令以及硬件组件。用户接口1060可以包括触摸屏、麦克风、相机、键盘、鼠标、定点设备和/或位置传感器等输入设备。类似地,用户接口1060可以包括输出设备,例如显示器、振动器和/或扬声器,以输出作为输出的图像、文字、振动、语音和/或视频。用户接口1060还可以包括用户可以通过说话、触摸或做手势来提供输入的自然用户接口。
图11示出了本技术实施例提供的一种软件架构1100,用于形成动态计算节点组并选择用于响应查询的最优逻辑计划。在各实施例中,软件架构1100中示出的软件组件存储在图10的存储器1020中。在各实施例中,图11中所示的软件组件可以单独地或组合地实现为存储在电子文件中的计算机程序、对象、功能、子例程、方法、软件实例、脚本、代码片段。为了清楚地描述本技术,图11中所示的软件组件描述为单独的软件组件。在各实施例中,图11中所示的软件组件可单独或组合地存储(在单个或分布式计算机可读存储介质中)和/或由单个或分布式计算设备(处理器或多核处理器)架构执行。由本文描述的各种软件组件执行的功能是示例性的。在其它实施例中,本文所标识的软件组件可以执行更多或更少的功能。在各实施例中,软件组件可以组合或进一步分开。
在各实施例中,软件架构1100包括动态计算节点组110和计划优化器111。动态计算节点组包括重新分区110a、分配110b和重分布110c。计划优化器111包括重分布代价111a、并行降低代价、倾斜因子111c和计划111d。
除其它功能外,动态计算节点组110还负责将存储数据集例如表的多个存储器分配给多个目标计算节点。在一实施例中,动态计算节点组110将控制信号或命令发送到网络,以更改特定存储器和特定计算节点之间的网络连接或信号路径。在一实施例中,动态计算节点组110根据用于响应查询的所选择的最优逻辑计划分配网络连接。
除其它功能外,重新分区110a还负责将数据集例如表重新分区或分区成分区数据或哈希桶,以便传输到多个或一组目标计算节点。
除其它功能外,分配110b还负责分配多个存储器,这些存储器将所述数据集存储到特定的多个或一组计算节点。在一实施例中,分配110b将控制信号或命令发送到网络,以更改特定存储器和特定计算节点之间的网络连接或信号路径。
除其它功能外,在一实施例中,重分布110c还负责重分布或分发来自特定存储器的重新分区或分区的数据集,其中,所述特定存储器已分配给分配110b中可能分配的特定计算节点。在各实施例中,重分布110c可以在所述数据集中的至少一部分上使用重分布和/或广播操作。
除其它功能外,计划优化器111还负责从候选逻辑计划中选择最优逻辑计划以响应(或应答)查询。在一实施例中,计划优化器111从计划111d接收候选逻辑计划。在一实施例中,计划优化器111基于数据重分布代价和并行降低代价选择最优逻辑计划。在一实施例中,计划优化器在所述候选计划中的每个数据库操作步骤中将所述数据重分布代价和所述并行降低代价相加,以获得每个逻辑计划的总估计代价。然后,比较每个逻辑计划的总估计代价,并选择总估计代价最低的计划作为最优逻辑计划。在一实施例中,当一个或多个逻辑计划的估计总代价在预定容差内时,选择使用数量最少的计算节点的逻辑计划作为最优计划。
除其它功能外,数据重分布代价111a还负责获取数据集的数据重分布代价。在一实施例中,如图6A-B所示和本文所述,计算数据重分布代价。
除其它功能外,并行降低代价111b还负责在计算数据集时获取并行降低代价。在一实施例中,如图6C所示和本文所述,计算并行降低代价。
除其它功能外,倾斜因子111c还负责获取倾斜因子。在一实施例中,如图6B所示和本文所述,计算倾斜因子。在一实施例中,倾斜因子111c为数据重分布代价111a提供倾斜因子。
除其它功能外,计划111d还负责获取多个候选逻辑计划以响应查询。在一实施例中,计划111d解析查询,并且在一实施例中,在获取多个候选逻辑计划时形成语法查询解析树,例如语法查询解析树200。
本技术的优点可能包括但不限于在MPP无共享RDBM系统中解耦计算和存储层,从而提高效率、灵活性和性能。其它优点可包括选择最优逻辑计划以检索对查询的响应(或应答),所述查询可进一步增强MMP无共享RDBM系统中的性能、灵活性和响应时间。
附图中的流程图和框图示出了根据本发明的各方面的设备、装置、系统、计算机可读介质和方法的可能实现的架构、功能和操作。就此而言,流程图或框图中的每个框(或箭头)可以表示用于实现指定的逻辑功能的系统组件、软件组件或硬件组件的操作。还应注意的是,在一些替代实现方式中,框中提出的功能可不按图中提出的次序进行。例如,事实上,连续展示的两个框(或箭头)可以同时执行,或者有时候,框(或箭头)可以按照相反的顺序执行,这取决于所涉及的功能。还应注意的是,框图和/或流程图中每一个框(或箭头)以及框图和/或流程图中框(或箭头)的组合可以由基于专用硬件的系统执行,该系统执行指定的功能或动作,或者执行专用硬件和计算机指令的组合。
应当理解,流程图和/或框图的每个框(或箭头)以及流程图和/或框图中的框(或箭头)的组合可以由非瞬时性计算机指令来实现。可以将这些计算机指令提供给通用计算机(或计算设备)、专用计算机或其它可编程数据处理装置的处理器以产生机器,使得通过处理器执行的指令创建用于实现在流程图和/或框图中指定的功能/动作的机制。
如此处所述,本发明各方面至少可以采用以下形式:至少一个系统、具有执行存储在非瞬时性存储器中指令的一个或多个处理器的设备、计算机实现方法和/或存储了计算机指令的非瞬时性存储介质。
非瞬时性计算机可读介质包括所有类型的计算机可读介质,包括磁存储介质、光存储介质和固态存储介质,并且具体不包括信号。应理解,包括计算机指令的软件可以安装在具有计算机可读存储介质的计算设备中并与其一起出售。或者,可以获得软件并将其加载到计算设备中,包括通过光盘介质或从任何类型的网络或分配系统获得软件,例如包括从软件创建者拥有的服务器或者从软件创建者未拥有却使用的服务器获得软件。例如,该软件可以存储在服务器上以便通过因特网分发。
所述计算机可读介质的更多示例包括以下内容:便携式计算机磁盘、硬盘、随机存取存储器(random access memory,简称RAM)、ROM、可擦除可编程只读存储器(erasableprogrammable read-only memory,简称EPROM,或闪存)、具有中继器的合适光纤、便携式只读光盘(compact disc read-only memory,简称CD-ROM)、光存储设备、磁性存储设备或上述任意合适组合。
本技术实施例中使用的非瞬时性计算机指令可以用一种或多种编程语言的任意组合编写。所述编程语言可包括面向对象的编程语言,例如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、CII、VB.NET、Python、R等,常规程序编程语言,例如“c”编程语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP、动态编程语言(例如Python、Ruby和Groovy)或其它编程语言。所述计算机指令可以完全在用户电脑(或计算设备)上执行,部分在用户电脑上执行,或作为独立的软件包,部分在用户电脑上执行,部分在远程计算机上执行,或完全在远程计算机或服务器上执行。在后一种场景下,远程计算机可以通过任何类型的网络连接到用户电脑,或者(例如,通过互联网服务提供商经由互联网)可以连接到外部计算机或在云计算环境连接或作为服务,例如软件即服务(Software as aService,简称SaaS)。
本文中所用的术语仅仅是出于描述特定方面的目的,并且并不打算限制本发明。除非上下文清楚说明,否则本文所用的单数形式“一”和“所述”包括其复数形式。应进一步了解,本说明书中所用的术语“包括”用于说明存在所述特征、整数、步骤、操作、元件和/或部件,但并不排除存在或添加一个或多个其它特征、整数、步骤、操作、元件、部件和/或它们的组合。
可以理解的是,本主题可以以许多不同的形式实现,并且不应视为对本文所阐述的实施例的限制。相反,提供这些实施例是为了使本主题内容更加透彻和完整,并将本发明完整地传达给本领域技术人员。事实上,本主题旨在覆盖包括在由所附权利要求书限定的本主题公开的精神和范围内的这些实施例的替代物、修改和等同物。另外,在本主题细描述中,阐述了许多特定细节以便提供对本主题的透彻理解。然而,所属领域的普通技术人员将清楚到,可以在没有这样具体细节的情况下实践本请求保护的主题。
虽然已经以特定于结构特征和/或方法论步骤的语言描述了主题,但是应该理解的是,权利要求书定义的主题不必局限于上面描述的具体特征或步骤(动作)。相反,上述具体的特征和步骤被公开作为实施权利要求的示例性方式。
Claims (20)
1.一种大规模并行处理无共享关系数据库管理系统,其特征在于,包括:
分配给多个计算节点的多个存储器;
非瞬时性存储器,用于存储指令;
一个或多个处理器,与所述非瞬时性存储器通信,其中,所述一个或多个处理器执行所述指令以用于:
将数据集存储在所述多个存储器中的第一组存储器中,其中,所述第一组存储器分配给所述多个计算节点中的第一组计算节点;
通过哈希对所述数据集进行重新分区得到重新分区的数据集;
将所述第一组存储器重新分配给所述多个计算节点中的第二组计算节点;
将所述重新分区的数据集分发到所述第二组计算节点;
通过所述第二组计算节点对所述重新分区的数据集执行数据库操作。
2.根据权利要求1所述的系统,其特征在于,所述对所述数据集进行重新分区包括通过哈希形成所述数据集的较小哈希桶。
3.根据权利要求1所述的系统,其特征在于,当重新分区键与用于对所述数据集进行分区的键相同时,则省略所述重新分区。
4.根据权利要求1所述的系统,其特征在于,所述重新分配包括在所述第一组存储器和所述第二组计算节点之间形成网络连接,所述分发包括通过所述网络连接将所述重新分区的数据集分发给所述第二组计算节点。
5.根据权利要求4所述的系统,其特征在于,所述第一组存储器和所述第一组计算节点在所述系统中形成无共享节点,所述数据库操作包括内部连接、扫描和重分布中的至少一个。
6.根据权利要求5所述的系统,其特征在于,所述第一组存储器包括用于存储所述数据集的至少一个集成电路存储器,所述第一组计算节点包括至少一个集成电路处理器,其中,所述集成电路处理器通过信号路径耦合到所述集成电路存储器以传输所述数据集。
7.根据权利要求1所述的系统,其特征在于,还包括所述一个或多个处理器执行所述指令以用于:
获取多个逻辑计划,所述逻辑计划包括对存储在所述第一组存储器中的数据集进行的所述数据库操作;
针对所述多个逻辑计划中的每个逻辑计划确定将所述数据集重分布到至少一个其他计算节点的成本;
针对所述多个逻辑计划中的每个逻辑计划确定通过分区间并行降低的成本;
基于重分布所述数据集的成本以及所述通过分区间并行降低的成本,从所述多个逻辑计划中选择逻辑计划。
8.一种计算机实现的用于访问数据的方法,其特征在于,所述方法包括:
获取多个逻辑计划以响应查询;
针对所述多个逻辑计划中的每个逻辑计划确定将存储在分配给计算节点的存储器中的数据集重分布到至少一个其他计算节点的成本;
针对所述多个逻辑计划中的每个逻辑计划确定通过分区间并行降低的成本;
基于重分布所述数据集的成本以及所述通过分区间并行降低的成本,从所述多个逻辑计划中选择逻辑计划。
9.根据权利要求8所述的计算机实现的方法,其特征在于,所述逻辑计划包括针对所述数据集进行的至少一个数据库操作。
10.根据权利要求9所述的计算机实现的方法,其特征在于,所述针对所述数据集进行的至少一个数据库操作包括连接、哈希聚合和重分布中的至少一个。
11.根据权利要求8所述的计算机实现的方法,其特征在于,所述确定重分布所述数据集的成本包括:
计算所述数据集中待处理的元组数量;
计算所述数据集中元组的宽度;
计算所述数据集的哈希成本因子;
计算耦合在所述存储器和所述至少一个其他计算节点之间的网络的平均数据传输速度;
计算使用倾斜因子的分区间并行度;
计算重分布所述数据集的成本,以至少响应所述待处理的元组数量、所述元组的宽度、所述哈希成本因子、所述平均数据传输速度以及所述使用倾斜因子的分区间并行度。
12.根据权利要求11所述的计算机实现的方法,其特征在于,所述倾斜因子表示与所述数据集关联的数据倾斜。
13.根据权利要求8所述的计算机实现的方法,其特征在于,所述确定通过分区间并行降低的成本包括:
计算对所述数据集进行哈希连接的算子成本;
计算对所述数据集进行哈希聚合的算子成本;
计算所述数据集的哈希成本因子;
计算使用倾斜因子的分区间并行度;
计算所述通过分区间并行降低的成本,以响应所述哈希连接的算子成本或所述哈希聚合的算子成本,以及所述使用倾斜因子的分区间并行度。
14.根据权利要求13所述的计算机实现的方法,其特征在于,基于所述数据集中最常见值的百分比计算所述倾斜因子。
15.根据权利要求8所述的计算机实现的方法,其特征在于,所述计算机实现的方法至少部分由大规模并行处理无共享关系数据库管理系统执行。
16.一种存储计算机指令的非瞬时性计算机可读介质,其特征在于,当一个或多个处理器执行所述计算机指令时,使得所述一个或多个处理器执行以下步骤:
将数据集存储在多个存储器中的第一组存储器中,其中,所述第一组存储器分配给多个计算节点中的第一组计算节点;
获取多个逻辑计划以响应访问所述数据集的查询;
针对所述多个逻辑计划中的每个逻辑计划确定将所述第一组存储器中存储的数据集重分布到第二组计算节点的成本;
针对所述多个逻辑计划中的每个逻辑计划确定通过分区间并行降低的成本;
基于重分布所述数据集的成本以及所述通过分区间并行降低的成本,从所述多个逻辑计划中选择逻辑计划;
通过哈希对所述数据集进行重新分区得到重新分区的数据集;
将所述第一组存储器重新分配给所述第二组计算节点;
将所述重新分区的数据集分发到所述第二组计算节点;
通过所述第二组计算节点对所述重新分区的数据集执行数据库操作,以提供对所述查询的应答。
17.根据权利要求16所述的非瞬时性计算机可读介质,其特征在于,所述多个存储器和所述多个计算节点包含在大规模并行处理无共享关系数据库管理系统中。
18.根据权利要求16所述的非瞬时性计算机可读介质,其特征在于,所述确定重分布所述数据集的成本包括:
计算所述数据集中待处理的元组数量;
计算所述数据集中元组的宽度;
计算所述数据集的哈希成本因子;
计算耦合在所述第一组存储器和所述第二组计算节点之间的网络的平均数据传输速度;
计算使用倾斜因子的分区间并行度;
计算重分布所述数据集的成本,以至少响应所述待处理的元组数量、所述元组的宽度、所述哈希成本因子、所述平均传输速度以及所述使用倾斜因子的分区间并行度。
19.根据权利要求18所述的非瞬时性计算机可读介质,其特征在于,所述确定通过分区间并行降低的成本包括:
计算对所述数据集进行哈希连接的算子成本;
计算对所述数据集进行哈希聚合的算子成本;
计算所述数据集的哈希成本因子;
计算使用倾斜因子的分区间并行度;
计算所述通过分区间并行降低的成本,以响应所述哈希连接的算子成本或所述哈希聚合的算子成本,以及所述使用倾斜因子的分区间并行度。
20.根据权利要求19所述的非瞬时性计算机可读介质,其特征在于,基于所述数据集中最常见值的百分比计算所述倾斜因子。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/374,158 | 2016-12-09 | ||
US15/374,158 US10649996B2 (en) | 2016-12-09 | 2016-12-09 | Dynamic computation node grouping with cost based optimization for massively parallel processing |
PCT/CN2017/111395 WO2018103520A1 (en) | 2016-12-09 | 2017-11-16 | Dynamic computation node grouping with cost based optimization for massively parallel processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110168516A true CN110168516A (zh) | 2019-08-23 |
CN110168516B CN110168516B (zh) | 2021-09-07 |
Family
ID=62489142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780075224.0A Active CN110168516B (zh) | 2016-12-09 | 2017-11-16 | 用于大规模并行处理的动态计算节点分组方法及系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10649996B2 (zh) |
CN (1) | CN110168516B (zh) |
WO (1) | WO2018103520A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905596A (zh) * | 2021-03-05 | 2021-06-04 | 北京中经惠众科技有限公司 | 数据处理的方法、装置、计算机设备以及存储介质 |
CN117076465A (zh) * | 2023-10-16 | 2023-11-17 | 支付宝(杭州)信息技术有限公司 | 一种数据关联查询方法及相关设备 |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11586627B2 (en) | 2016-09-26 | 2023-02-21 | Splunk Inc. | Partitioning and reducing records at ingest of a worker node |
US11250056B1 (en) | 2016-09-26 | 2022-02-15 | Splunk Inc. | Updating a location marker of an ingestion buffer based on storing buckets in a shared storage system |
US10353965B2 (en) | 2016-09-26 | 2019-07-16 | Splunk Inc. | Data fabric service system architecture |
US11550847B1 (en) | 2016-09-26 | 2023-01-10 | Splunk Inc. | Hashing bucket identifiers to identify search nodes for efficient query execution |
US11604795B2 (en) | 2016-09-26 | 2023-03-14 | Splunk Inc. | Distributing partial results from an external data system between worker nodes |
US11442935B2 (en) | 2016-09-26 | 2022-09-13 | Splunk Inc. | Determining a record generation estimate of a processing task |
US11281706B2 (en) | 2016-09-26 | 2022-03-22 | Splunk Inc. | Multi-layer partition allocation for query execution |
US11567993B1 (en) | 2016-09-26 | 2023-01-31 | Splunk Inc. | Copying buckets from a remote shared storage system to memory associated with a search node for query execution |
US10956415B2 (en) | 2016-09-26 | 2021-03-23 | Splunk Inc. | Generating a subquery for an external data system using a configuration file |
US11269939B1 (en) | 2016-09-26 | 2022-03-08 | Splunk Inc. | Iterative message-based data processing including streaming analytics |
US11321321B2 (en) | 2016-09-26 | 2022-05-03 | Splunk Inc. | Record expansion and reduction based on a processing task in a data intake and query system |
US11416528B2 (en) | 2016-09-26 | 2022-08-16 | Splunk Inc. | Query acceleration data store |
US11461334B2 (en) | 2016-09-26 | 2022-10-04 | Splunk Inc. | Data conditioning for dataset destination |
US11593377B2 (en) | 2016-09-26 | 2023-02-28 | Splunk Inc. | Assigning processing tasks in a data intake and query system |
US11580107B2 (en) | 2016-09-26 | 2023-02-14 | Splunk Inc. | Bucket data distribution for exporting data to worker nodes |
US11599541B2 (en) | 2016-09-26 | 2023-03-07 | Splunk Inc. | Determining records generated by a processing task of a query |
US11294941B1 (en) | 2016-09-26 | 2022-04-05 | Splunk Inc. | Message-based data ingestion to a data intake and query system |
US11874691B1 (en) * | 2016-09-26 | 2024-01-16 | Splunk Inc. | Managing efficient query execution including mapping of buckets to search nodes |
US11663227B2 (en) | 2016-09-26 | 2023-05-30 | Splunk Inc. | Generating a subquery for a distinct data intake and query system |
US20180089324A1 (en) | 2016-09-26 | 2018-03-29 | Splunk Inc. | Dynamic resource allocation for real-time search |
US11232100B2 (en) | 2016-09-26 | 2022-01-25 | Splunk Inc. | Resource allocation for multiple datasets |
US11615104B2 (en) | 2016-09-26 | 2023-03-28 | Splunk Inc. | Subquery generation based on a data ingest estimate of an external data system |
US11620336B1 (en) | 2016-09-26 | 2023-04-04 | Splunk Inc. | Managing and storing buckets to a remote shared storage system based on a collective bucket size |
US11860940B1 (en) | 2016-09-26 | 2024-01-02 | Splunk Inc. | Identifying buckets for query execution using a catalog of buckets |
US11562023B1 (en) | 2016-09-26 | 2023-01-24 | Splunk Inc. | Merging buckets in a data intake and query system |
WO2018158819A1 (ja) * | 2017-02-28 | 2018-09-07 | 株式会社日立製作所 | 分散データベースシステム及び分散データベースシステムのリソース管理方法 |
US11921672B2 (en) | 2017-07-31 | 2024-03-05 | Splunk Inc. | Query execution at a remote heterogeneous data store of a data fabric service |
US10896182B2 (en) | 2017-09-25 | 2021-01-19 | Splunk Inc. | Multi-partitioning determination for combination operations |
US11003693B2 (en) * | 2018-04-05 | 2021-05-11 | Sap Se | Grouping tables with existing tables in a distributed database |
US11010363B2 (en) | 2018-04-05 | 2021-05-18 | Sap Se | Complementing existing tables while grouping tables in a distributed database |
US11334543B1 (en) | 2018-04-30 | 2022-05-17 | Splunk Inc. | Scalable bucket merging for a data intake and query system |
US11204921B2 (en) * | 2018-06-01 | 2021-12-21 | Sap Se | Robustness metrics for optimization of query execution plans |
CN111435939B (zh) * | 2019-01-14 | 2023-05-05 | 百度在线网络技术(北京)有限公司 | 用于划分节点的存储空间的方法和装置 |
WO2020220216A1 (en) | 2019-04-29 | 2020-11-05 | Splunk Inc. | Search time estimate in data intake and query system |
US11715051B1 (en) | 2019-04-30 | 2023-08-01 | Splunk Inc. | Service provider instance recommendations using machine-learned classifications and reconciliation |
US20200401585A1 (en) * | 2019-05-31 | 2020-12-24 | Teradata Us, Inc. | Spatial joins in multi-processing computing systems including massively parallel processing database systems |
US11036733B2 (en) | 2019-08-20 | 2021-06-15 | Ant Financial (Hang Zhou) Network Technology Co., Ltd. | Method, apparatus, system, server, and storage medium for connecting tables stored at distributed database |
CN110675054B (zh) * | 2019-09-23 | 2022-08-23 | 金蝶蝶金云计算有限公司 | 一种erp系统中数据处理方法、数据处理系统及相关设备 |
US11494380B2 (en) | 2019-10-18 | 2022-11-08 | Splunk Inc. | Management of distributed computing framework components in a data fabric service system |
CN111177245A (zh) * | 2019-12-25 | 2020-05-19 | 中国平安财产保险股份有限公司 | Redis集群的键值遍历方法、服务器及存储介质 |
US11922222B1 (en) | 2020-01-30 | 2024-03-05 | Splunk Inc. | Generating a modified component for a data intake and query system using an isolated execution environment image |
US11734274B2 (en) * | 2020-04-10 | 2023-08-22 | Microsoft Technology Licensing, Llc | Transforming queries using bitvector aware optimization |
US20220100758A1 (en) * | 2020-09-30 | 2022-03-31 | Snowflake Inc. | Autoscaling external function requests |
US11704313B1 (en) | 2020-10-19 | 2023-07-18 | Splunk Inc. | Parallel branch operation using intermediary nodes |
US11544294B2 (en) | 2020-12-10 | 2023-01-03 | Sap Se | Distributing tables in a distributed database using consolidated grouping sources |
CN114781316B (zh) * | 2022-06-21 | 2022-10-11 | 上海思尔芯技术股份有限公司 | 组网布局方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521297A (zh) * | 2011-11-30 | 2012-06-27 | 北京人大金仓信息技术股份有限公司 | 无共享数据库集群中实现系统动态扩展的方法 |
CN102609451A (zh) * | 2012-01-11 | 2012-07-25 | 华中科技大学 | 面向流式数据处理的sql查询计划生成方法 |
US20130124501A1 (en) * | 2008-10-06 | 2013-05-16 | Yu Xu | System, method and computer-readable medium for optimization of multiple-parallel join operations on skewed data |
CN104054076A (zh) * | 2013-01-14 | 2014-09-17 | 华为技术有限公司 | 数据存储方法、数据库存储节点故障处理方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6092062A (en) * | 1997-06-30 | 2000-07-18 | International Business Machines Corporation | Relational database query optimization to perform query evaluation plan, pruning based on the partition properties |
US20130232133A1 (en) * | 2010-12-03 | 2013-09-05 | Awny K. Al-omari | Systems and methods for performing a nested join operation |
KR101502896B1 (ko) | 2011-02-14 | 2015-03-24 | 주식회사 케이티 | 맵 리듀스를 이용한 분산 메모리 클러스터 제어 장치 및 방법 |
US8799284B2 (en) * | 2012-11-30 | 2014-08-05 | Futurewei Technologies, Inc. | Method for automated scaling of a massive parallel processing (MPP) database |
US9152669B2 (en) * | 2013-03-13 | 2015-10-06 | Futurewei Technologies, Inc. | System and method for distributed SQL join processing in shared-nothing relational database clusters using stationary tables |
US9576026B2 (en) * | 2013-03-13 | 2017-02-21 | Futurewei Technologies, Inc. | System and method for distributed SQL join processing in shared-nothing relational database clusters using self directed data streams |
US9479449B2 (en) | 2013-06-03 | 2016-10-25 | Advanced Micro Devices, Inc. | Workload partitioning among heterogeneous processing nodes |
US9417903B2 (en) | 2013-06-21 | 2016-08-16 | International Business Machines Corporation | Storage management for a cluster of integrated computing systems comprising integrated resource infrastructure using storage resource agents and synchronized inter-system storage priority map |
US9953057B2 (en) * | 2015-06-18 | 2018-04-24 | International Business Machines Corporation | Partitioned join with dense inner table representation |
-
2016
- 2016-12-09 US US15/374,158 patent/US10649996B2/en active Active
-
2017
- 2017-11-16 WO PCT/CN2017/111395 patent/WO2018103520A1/en active Application Filing
- 2017-11-16 CN CN201780075224.0A patent/CN110168516B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130124501A1 (en) * | 2008-10-06 | 2013-05-16 | Yu Xu | System, method and computer-readable medium for optimization of multiple-parallel join operations on skewed data |
CN102521297A (zh) * | 2011-11-30 | 2012-06-27 | 北京人大金仓信息技术股份有限公司 | 无共享数据库集群中实现系统动态扩展的方法 |
CN102609451A (zh) * | 2012-01-11 | 2012-07-25 | 华中科技大学 | 面向流式数据处理的sql查询计划生成方法 |
CN104054076A (zh) * | 2013-01-14 | 2014-09-17 | 华为技术有限公司 | 数据存储方法、数据库存储节点故障处理方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905596A (zh) * | 2021-03-05 | 2021-06-04 | 北京中经惠众科技有限公司 | 数据处理的方法、装置、计算机设备以及存储介质 |
CN112905596B (zh) * | 2021-03-05 | 2024-02-02 | 北京中经惠众科技有限公司 | 数据处理的方法、装置、计算机设备以及存储介质 |
CN117076465A (zh) * | 2023-10-16 | 2023-11-17 | 支付宝(杭州)信息技术有限公司 | 一种数据关联查询方法及相关设备 |
CN117076465B (zh) * | 2023-10-16 | 2024-04-05 | 支付宝(杭州)信息技术有限公司 | 一种数据关联查询方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
US20180165331A1 (en) | 2018-06-14 |
CN110168516B (zh) | 2021-09-07 |
US10649996B2 (en) | 2020-05-12 |
WO2018103520A1 (en) | 2018-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110168516A (zh) | 用于大规模并行处理的基于代价的动态计算节点分组优化 | |
Viswanathan et al. | {CLARINET}:{WAN-Aware} Optimization for Analytics Queries | |
CN104050042B (zh) | Etl作业的资源分配方法及装置 | |
CN110199273B (zh) | 用于在多维数据库环境中的一次扫描中进行加载、聚合和批量计算的系统和方法 | |
US9165032B2 (en) | Allocation of resources for concurrent query execution via adaptive segmentation | |
US10310908B2 (en) | Dynamic usage balance of central processing units and accelerators | |
Chen et al. | A task scheduling algorithm for Hadoop platform | |
US20070143759A1 (en) | Scheduling and partitioning tasks via architecture-aware feedback information | |
Czarnul et al. | Survey of methodologies, approaches, and challenges in parallel programming using high-performance computing systems | |
JP2014525640A (ja) | 並列処理開発環境の拡張 | |
US20190229992A1 (en) | System and Methods for Auto-Tuning Big Data Workloads on Cloud Platforms | |
CN105471985A (zh) | 负载均衡方法及云平台计算方法、云平台 | |
US10158709B1 (en) | Identifying data store requests for asynchronous processing | |
CN107291539B (zh) | 基于资源重要程度的集群程序调度方法 | |
Cheng et al. | Efficient data redistribution to speedup big data analytics in large systems | |
US20220138195A1 (en) | User defined functions for database query languages based on call-back functions | |
US20230087933A1 (en) | Transient materialized view rewrite | |
US20200065415A1 (en) | System For Optimizing Storage Replication In A Distributed Data Analysis System Using Historical Data Access Patterns | |
CN109828790A (zh) | 一种基于申威异构众核处理器的数据处理方法和系统 | |
Hadadian Nejad Yousefi et al. | IMOS: improved meta-aligner and Minimap2 on spark | |
US20210390405A1 (en) | Microservice-based training systems in heterogeneous graphic processor unit (gpu) cluster and operating method thereof | |
Simhadri | Program-centric cost models for locality and parallelism | |
CN109783141A (zh) | 异构调度方法 | |
US20210149746A1 (en) | Method, System, Computer Readable Medium, and Device for Scheduling Computational Operation Based on Graph Data | |
Cernuda et al. | Hflow: A dynamic and elastic multi-layered i/o forwarder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |