CN110321388A

CN110321388A - 一种基于Greenplum的快速排序查询方法及系统

Info

Publication number: CN110321388A
Application number: CN201910141280.0A
Authority: CN
Inventors: 洪灿榕
Original assignee: Linewell Software Co Ltd
Current assignee: Nanwei North Technology Group Co ltd
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2019-10-11
Anticipated expiration: 2039-02-26
Also published as: CN110321388B

Abstract

本发明属于大数据查询技术领域，公开了一种基于Greenplum的快速排序查询方法及系统，由Greenplum接收并解析SQL请求并生成相应的抽象语法树，根据所述语法树生成查询执行计划树，通过修改执行计划树，新增LimitNode，把Limit操作下发到Segment上执行；对分区按分区键值进行排序；按顺序依次扫描分区的记录数，达到Limit限制的记录数时直接返回。本发明通过预先对分区的排序，在查询时由邻近的分区开始查询,只对少量几个需要排序的分区进行排序和查询，减少大量不必要的分区数据读取，大幅提升条件查询的性能。

Description

一种基于Greenplum的快速排序查询方法及系统

技术领域

本发明属于大数据查询技术领域，尤其涉及一种基于Greenplum的快速排序查询方法及系统。

背景技术

目前，业内常用的现有技术是这样的：

Greenplum是一个关系型数据库集群，它实际上是由多个独立的数据库服务组合成的逻辑数据库。与Oracle RAC的Shared-Everything架构不同，Greenplum 采用Shared-Nothing架构，整个集群由多个数据节点(Segment Host)和控制节点(Master Host)组成，其中每个数据节点上可以运行多个数据库，也称为多个实例。

控制节点(Master Host)接收并解析SQL请求并生成相应的抽象语法树，根据该语法树生成执行计划树，并把执行计划树下发到各个数据节点(Segment Host)上，由数据节点的每个数据库实例来遍历执行计划树并执行相应操作，最后把结果返回并汇总到控制节点上，再控制节点把结果返回给SQL客户端。

当表数据按时间分区时，用户执行一条order by+limit查询，Greenplum 会将符合条件的分区列出并读取这些分区中的数据，分部读取完成后再统一进行排序，最终返回排序后的第一页数据。

综上所述，现有技术存在的问题是：

现有技术在执行基于Greenplum分区键值的Order by加Limit的查询时，Greenplum原始的计划方式在实际生产环境中查询效率低，对已经分区键未能有效利用，总数n个分区在实际环境中第一个分区往往已经满足了limit条件，其余n-1个分区的数据并不需要读取。

解决上述技术问题的难度和意义：

难度上：源码量大(总代码量两百六十多万行)，架构复杂，文档稀少。

意义：本发明提升查询效率，提高生产力。

发明内容

针对现有技术存在的问题，本发明提供了一种基于Greenplum的快速排序查询方法及系统。本发明通过预先按分区键值对分区进行排序，排除多数不必要的分区，减少对大量冗余记录的查询和排序操作，实现数据的快速查询。

本发明是这样实现的，一种基于Greenplum的快速排序查询方法，所述基于Greenplum的快速排序查询方法包括：

由Greenplum接收并解析SQL请求并生成相应的抽象语法树，根据所述语法树生成查询执行计划树，通过修改执行计划树，新增LimitNode，把Limit操作下发到Segment上执行；

进行修改PartitionSelectorNode，对分区按分区键值进行排序；

进行修改DynamicTableScanNode，按顺序依次扫描分区的记录数，达到 Limit限制的记录数时直接返回。

进一步，所述基于Greenplum的快速排序查询方法具体包括：

步骤一、Greenplum接收并解析SQL请求并生成相应的执行计划树，判断执行计划树的根节点是否是LimitNode，如果是LimitNode的话就复制该节点并把复制后的LimitNode插入到MotionNode下，MotionNode下的执行计划子树被下发到Segment上执行；

步骤二、在Master节点上把分区的键值信息保存到执行计划状态 PlannedStmt结构体中，Segment节点上没有分区的键值信息，保存到 PlannedStmt结构体下发给Segment节点；

步骤三、Segment节点从Master下发的PlannedStmt结构体获取分区键值信息被保存到运行时状态EState结构体上，EState被所有执行计划树的子节点访问到；

步骤四、Segment在执行LimitNode的初始化时，保存Limit的个数到EState 结构体上；

步骤五、Segment在执行SortNode的初始化时，保存排序的键值和排序方式到EState结构体上；

步骤六、Segment在执行PartitionSelectorNode时，通过EState结构体上的Limit的个数判断是否有进行Limit操作；如果有，再判断EState结构体中的分区键值和排序键值是否一致；如果一致，对分区按照EState保存的排序方式进行排序，再将有序的分区列表返回DynamicTableScanNode节点；

步骤七、DynamicTableScanNode接收PartitionSelectorNode返回的有序的分区列表，依次对分区进行扫描；

步骤八、执行SortNode，把DynamicTableScanNode返回的节点进行排序并传入下一个LimitNode；

步骤九、执行LimitNode,读取SortNode排序后的前Limit个数个节点作为Segment的查询结果返回给Master节点；

步骤十、在Master上执行MotionNode对Segment返回的记录进行汇聚，然后再执行LimitNode，读取限制的前几条记录并返回给查询客户端。

进一步，步骤七，进一步包括：设置一个统计变量count，每扫描一条记录则count加一，当扫描完一个分区时，比较count是否大于保存在EState的Limit 个数，如果小于Limit个数，继续扫描下一个分区并统计；如果大于或等于Limit 个数，则直接返回扫描的记录数给SortNode，不再扫描剩余的分区。

本发明的另一目的在于提供一种计算机程序，所述计算机程序用于实现所述的基于Greenplum的快速排序查询方法的计算机程序。

本发明的另一目的在于提供一种终端，所述终端至少搭载所述基于Greenplum的快速排序查询方法的控制器。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的基于Greenplum的快速排序查询方法。

本发明的另一目的在于提供一种实现所述基于Greenplum的快速排序查询方法的基于Greenplum的快速排序查询系统，所述基于Greenplum的快速排序查询系统包括：

执行计划树判断模块，用于Greenplum接收并解析SQL请求并生成相应的执行计划树，判断执行计划树的根节点是否是LimitNode，如果是LimitNode的话就复制该节点并把复制后的LimitNode插入到MotionNode下，MotionNode 下的执行计划子树被下发到Segment上执行；

执行计划状态PlannedStmt结构体保存模块，用于在Master节点上把分区的键值信息保存到执行计划状态PlannedStmt结构体中，Segment节点上没有分区的键值信息，保存到PlannedStmt结构体下发给Segment节点；

运行时状态EState结构体保存模块，用于Segment节点从Master下发的PlannedStmt结构体获取分区键值信息被保存到运行时状态EState结构体上， EState被所有执行计划树的子节点访问到；

LimitNode初始化模块，用于Segment在执行LimitNode的初始化时，保存 Limit的个数到EState结构体上；

SortNode的初始化模块，用于Segment在执行SortNode的初始化时，保存排序的键值和排序方式到EState结构体上；

Limit操作模块，用于Segment在执行PartitionSelectorNode时，通过 EState结构体上的Limit的个数判断是否有进行Limit操作；如果有，再判断 EState结构体中的分区键值和排序键值是否一致；如果一致，对分区按照EState 保存的排序方式进行排序，再将有序的分区列表返回DynamicTableScanNode节点；

分区扫描模块，用于DynamicTableScanNode接收PartitionSelectorNode 返回的有序的分区列表，依次对分区进行扫描；

SortNode执行模块，用于执行SortNode，把DynamicTableScanNode返回的节点进行排序并传入下一个LimitNode；

LimitNode执行模块，用于执行LimitNode,读取SortNode排序后的前Limit 个数个节点作为Segment的查询结果返回给Master节点；

记录和汇聚模块，用于在Master上执行MotionNode对Segment返回的记录进行汇聚，然后再执行LimitNode，读取限制的前几条记录并返回给查询客户端；

查询客户端，用于显示排序查询结果。

本发明的另一目的在于提供一种大数据查询平台，所述大数据查询平台至少搭载所述的基于Greenplum的快速排序查询系统。

本发明的另一目的在于提供一种金融行业大数据查询设备，所述金融行业大数据查询设备至少搭载所述的基于Greenplum的快速排序查询系统。

本发明的另一目的在于提供一种股市行业大数据查询设备，所述股市行业大数据查询设备至少搭载所述的基于Greenplum的快速排序查询系统。

综上所述，本发明的优点及积极效果为：

本发明通过预先对分区的排序，在查询时由邻近的分区开始查询,只对少量几个需要排序的分区进行排序和查询，减少大量不必要的分区数据读取，大幅提升条件查询的性能。

本发明由Greenplum接收并解析SQL请求并生成相应的抽象语法树，根据该语法树生成查询执行计划树，通过修改执行计划树，新增LimitNode，把Limit 操作下发到Segment上执行，修改PartitionSelectorNode，对分区按分区键值进行排序，修改DynamicTableScanNode，按顺序依次扫描分区的记录数，达到 Limit限制的记录数时就直接返回，从而达到减少对大量冗余记录的查询和排序操作，实现数据的快速查询。

在仿真实验中，本发明创建一张分区表ebike_pass_redord，表中除其它数据列外有时间类型字段pass_time,以pass_time为分区的键值按时间2017年1 月1日至2017年12月31日分为365个分区,向表中插入3千万条记录，分布在365个分区中，其中落在2017年1月1日这个分区上的记录数为1万条。执行查询：select id,pass_time from ebike_pass_redord order by pass_time limit 10。

以下是在实际环境中执行的效果，查询耗时用红框标出。

原版：耗时18秒

优化后：耗时0.1秒

从实际测试使用的结果可看出，例中的查询语句只需读取最近的第一个分区中的数据即可返回给用户，查询效率提升180倍。

附图说明

图1是本发明实施例提供的基于Greenplum的快速排序查询方法流程图。

图2是本发明实施例提供的基于Greenplum的快速排序查询系统示意图。

图中：1、执行计划树判断模块；2、执行计划状态PlannedStmt结构体保存模块；3、运行时状态EState结构体保存模块；4、LimitNode初始化模块；5、 SortNode的初始化模块；6、Limit操作模块；7、分区扫描模块；8、SortNode 执行模块；9、LimitNode执行模块；10、记录和汇聚模块；11、查询客户端。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明通过Greenplum接收并解析SQL请求生成相应的查询计划，通过预先按分区键值对分区进行排序，排除多数不必要的分区，减少对大量冗余记录的查询和排序操作，实现数据的快速查询。

图1，本发明实施例提供的基于Greenplum的快速排序查询方法，为一种基于Greenplum分区键值的Order by加Limit的快速查询方法，由Greenplum接收并解析SQL请求并生成相应的抽象语法树，根据该语法树生成查询执行计划树，通过修改执行计划树，新增LimitNode，把Limit操作下发到Segment上执行，修改PartitionSelectorNode，对分区按分区键值进行排序，修改 DynamicTableScanNode，按顺序依次扫描分区的记录数，达到Limit限制的记录数时就直接返回。

具体包括以下步骤：

步骤1、Greenplum接收并解析SQL请求并生成相应的执行计划树，判断执行计划树的根节点是否是LimitNode，如果是LimitNode的话就复制该节点并把复制后的LimitNode插入到MotionNode下，因为MotionNode下的执行计划子树才会被下发到Segment上执行；

步骤2、在Master节点上把分区的键值信息保存到执行计划状态 PlannedStmt结构体中，因为Segment节点上是没有分区的键值信息，所以要保存到PlannedStmt结构体下发给Segment节点；

步骤3、Segment节点从Master下发的PlannedStmt结构体获取分区键值信息被保存到运行时状态EState结构体上，因为EState可以被所有执行计划树的子节点访问到。

步骤4、Segment在执行LimitNode的初始化的时候，保存Limit的个数到 EState结构体上。

步骤5、Segment在执行SortNode的初始化的时候，保存排序的键值和排序方式(升序或降序)到EState结构体上。

步骤6、Segment在执行PartitionSelectorNode的时候，首先通过EState 结构体上的Limit的个数判断是否有进行Limit操作，如果有的话再判断EState 结构体中的分区键值和排序键值是否一致。如果一致的话就对分区按照EState 保存的排序方式进行排序，然后将有序的分区列表返回DynamicTableScanNode 节点。

步骤7、DynamicTableScanNode接收PartitionSelectorNode返回的有序的分区列表，依次对分区进行扫描，本发明设置一个统计变量count，每扫描一条记录则count加一，当扫描完一个分区的时候本发明比较一下count是否大于保存在EState的Limit个数，如果小于Limit个数本发明就继续扫描下一个分区并统计，如果大于或等于Limit个数则本发明直接返回扫描的记录数给 SortNode，不再扫描剩余的分区。

步骤8、执行SortNode，把DynamicTableScanNode返回的节点进行排序并传入下一个LimitNode。

步骤9、执行LimitNode,读取SortNode排序后的前Limit个数个节点作为 Segment的查询结果返回给Master节点。

步骤10、在Master上执行MotionNode对Segment返回的记过进行汇聚，然后再执行LimitNode，读取限制的前几条记录并返回给查询客户端。

如图2，本发明实施例提供的基于Greenplum的快速排序查询系统包括：

执行计划树判断模块1，用于Greenplum接收并解析SQL请求并生成相应的执行计划树，判断执行计划树的根节点是否是LimitNode，如果是LimitNode的话就复制该节点并把复制后的LimitNode插入到MotionNode下，MotionNode 下的执行计划子树被下发到Segment上执行。

执行计划状态PlannedStmt结构体保存模块2，用于在Master节点上把分区的键值信息保存到执行计划状态PlannedStmt结构体中，Segment节点上没有分区的键值信息，保存到PlannedStmt结构体下发给Segment节点。

运行时状态EState结构体保存模块3，用于Segment节点从Master下发的PlannedStmt结构体获取分区键值信息被保存到运行时状态EState结构体上， EState被所有执行计划树的子节点访问到。

LimitNode初始化模块4，用于Segment在执行LimitNode的初始化时，保存Limit的个数到EState结构体上。

SortNode的初始化模块5，用于Segment在执行SortNode的初始化时，保存排序的键值和排序方式到EState结构体上。

Limit操作模块6，用于Segment在执行PartitionSelectorNode时，通过 EState结构体上的Limit的个数判断是否有进行Limit操作；如果有，再判断 EState结构体中的分区键值和排序键值是否一致；如果一致，对分区按照EState 保存的排序方式进行排序，再将有序的分区列表返回DynamicTableScanNode节点。

分区扫描模块7，用于DynamicTableScanNode接收PartitionSelectorNode 返回的有序的分区列表，依次对分区进行扫描；。

SortNode执行模块8，用于执行SortNode，把DynamicTableScanNode返回的节点进行排序并传入下一个LimitNode。

LimitNode执行模块9，用于执行LimitNode,读取SortNode排序后的前 Limit个数个节点作为Segment的查询结果返回给Master节点。

记录和汇聚模块10，用于在Master上执行MotionNode对Segment返回的记录进行汇聚，然后再执行LimitNode，读取限制的前几条记录并返回给查询客户端。

查询客户端11，用于显示排序查询结果。

下面结合具体实施例对本发明作进一步描述。

实施例：

假设有一张分区表test，表中有2列，列名分别为id和create_date,以create_date为分区的键值按时间2017年1月1日至2017年12月31日分为 365个分区,向表中插入3千万条记录，分布在365个分区中，其中落在2017年 1月1日这个分区上的记录数为1万条。

当本发明执行以下SQL语句时，优化的查询流程将取代原流程：

select*from test order by create_date limit 10；

具体处理流程的比较如图1所示，本发明揭示了一种基于Greenplum分区键值的Order by加Limit的快速查询方法，其包括以下步骤：

步骤1、用户提交SQL请求到Master节点，Master节点生成执行计划树并下发给Segment节点执行；

步骤2、Segment从执行计划树的叶子节点开始遍历执行。所以从PartitionSelectorNode开始执行，先选择满足条件的分区，然后对满足条件的分区进行排序，由于本例中本发明没有限制条件，所有会对365个分区都进行排序并返回给DynamicTableScanNode。

步骤3、执行DynamicTableScanNode、按照分区顺序依次扫描分区的记录数，每次扫描完分区后统计扫描的记录数，如果累计扫描的记录数超过Limit 限制的记录数，则不继续扫描，直接返回累计扫描的记录。因为落在第一个分区2017年1月1日的记录数基友1万条，所以只扫描第一个分区就停止扫描并返回1万条记录给SortNode进行排序，原来的处理流程中这里要返回3千万条记录给SortNode进行排序，相差巨大。

步骤4、执行SortNode对1万条记录进行排序，并返回1万条有序记录给LimitNode。

步骤5、执行LimitNode，对返回的1万条记录进行Limit操作，这里segment 只返回排序的前10条记录给Master。

步骤6、在Master上执行MotionNode，从每个segment获取10条有序记录，汇聚成有序的记录返传入LimitNode；

步骤7、在Master上执行LimitNode，对传入的segment数量乘以10条有序记录进行Limit操作，返回前10条记录给查询用户。

下面结合仿真实验对本发明作进一步描述。

创建一张分区表ebike_pass_redord，表中除其它数据列外有时间类型字段pass_time,以pass_time为分区的键值按时间2017年1月1日至2017年12月 31日分为365个分区,向表中插入3千万条记录，分布在365个分区中，其中落在2017年1月1日这个分区上的记录数为1万条。执行查询：

select id,pass_time from ebike_pass_redord order by pass_time limit10；

以下是在实际环境中执行的效果，查询耗时用红框标出。

原版：耗时18秒

优化后：耗时0.1秒

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Greenplum的快速排序查询方法，其特征在于，所述基于Greenplum的快速排序查询方法包括：

进行修改PartitionSelectorNode，对分区按分区键值进行排序；

进行修改DynamicTableScanNode，按顺序依次扫描分区的记录数，达到Limit限制的记录数时直接返回。

2.如权利要求1所述的基于Greenplum的快速排序查询方法，其特征在于，所述基于Greenplum的快速排序查询方法具体包括：

步骤二、在Master节点上把分区的键值信息保存到执行计划状态PlannedStmt结构体中，Segment节点上没有分区的键值信息，保存到PlannedStmt结构体下发给Segment节点；

步骤四、Segment在执行LimitNode的初始化时，保存Limit的个数到EState结构体上；

3.如权利要求2所述的基于Greenplum的快速排序查询方法，其特征在于，

步骤七，进一步包括：设置一个统计变量count，每扫描一条记录则count加一，当扫描完一个分区时，比较count是否大于保存在EState的Limit个数，如果小于Limit个数，继续扫描下一个分区并统计；如果大于或等于Limit个数，则直接返回扫描的记录数给SortNode，不再扫描剩余的分区。

4.一种计算机程序，其特征在于，所述计算机程序用于实现权利要求1～3任意一项所述的基于Greenplum的快速排序查询方法的计算机程序。

5.一种终端，其特征在于，所述终端至少搭载实现权利要求1～3任意一项所述基于Greenplum的快速排序查询方法的控制器。

6.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-3任意一项所述的基于Greenplum的快速排序查询方法。

7.一种实现权利要求1所述基于Greenplum的快速排序查询方法的基于Greenplum的快速排序查询系统，其特征在于，所述基于Greenplum的快速排序查询系统包括：

执行计划树判断模块，用于Greenplum接收并解析SQL请求并生成相应的执行计划树，判断执行计划树的根节点是否是LimitNode，如果是LimitNode的话就复制该节点并把复制后的LimitNode插入到MotionNode下，MotionNode下的执行计划子树被下发到Segment上执行；

运行时状态EState结构体保存模块，用于Segment节点从Master下发的PlannedStmt结构体获取分区键值信息被保存到运行时状态EState结构体上，EState被所有执行计划树的子节点访问到；

LimitNode初始化模块，用于Segment在执行LimitNode的初始化时，保存Limit的个数到EState结构体上；

Limit操作模块，用于Segment在执行PartitionSelectorNode时，通过EState结构体上的Limit的个数判断是否有进行Limit操作；如果有，再判断EState结构体中的分区键值和排序键值是否一致；如果一致，对分区按照EState保存的排序方式进行排序，再将有序的分区列表返回DynamicTableScanNode节点；

分区扫描模块，用于DynamicTableScanNode接收PartitionSelectorNode返回的有序的分区列表，依次对分区进行扫描；

LimitNode执行模块，用于执行LimitNode,读取SortNode排序后的前Limit个数个节点作为Segment的查询结果返回给Master节点；

查询客户端，用于显示排序查询结果。

8.一种大数据查询平台，其特征在于，所述大数据查询平台至少搭载权利要求7所述的基于Greenplum的快速排序查询系统。

9.一种金融行业大数据查询设备，其特征在于，所述金融行业大数据查询设备至少搭载权利要求7所述的基于Greenplum的快速排序查询系统。

10.一种股市行业大数据查询设备，其特征在于，所述股市行业大数据查询设备至少搭载权利要求7所述的基于Greenplum的快速排序查询系统。