CN110046176B

CN110046176B - 一种基于Spark的大规模分布式DataFrame的查询方法

Info

Publication number: CN110046176B
Application number: CN201910347850.1A
Authority: CN
Inventors: 顾荣; 黄宜华; 施军
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2023-03-31
Anticipated expiration: 2039-04-28
Also published as: CN110046176A

Abstract

本发明公开了一种基于Spark的大规模分布式DataFrame的查询方法，包括以下步骤：采用了基于分布式计算执行引擎Spark的系统框架，以DataFrame作为编程模型，Python作为编程语言；在该分布式系统中，通过封装Spark原生DataFrame的已有查询接口，消除了与主流单机DataFrame计算库Pandas的API的不兼容性；构建轻量级全局索引，针对不同情况提供多种分布式DataFrame查询的功能；构建局部索引和辅助索引，提高了查询的性能。本发明解决了现有单机平台DataFrame可扩展性不好，无法处理大规模数据，以及现有的大数据处理平台分布式DataFrame查询接口不丰富，易用性差，性能低的问题。

Description

一种基于Spark的大规模分布式DataFrame的查询方法

技术领域

本发明涉及分布式计算技术领域，尤其涉及一种基于Spark的大规模分布式DataFrame的查询方法。

背景技术

大数据分析应用中，基于表模型的结构化大数据分析处理，仍然是目前众多行业最基本的需求。DataFrame是一种在编程语言环境中易于使用的表数据编程模型，它对数据分析统计过程有良好的抽象，因而得到了广泛的关注。

传统的关系数据库提供了一种面向SQL查询的表数据模型，但是SQL查询需要在后台提供重量级(heavy-weighted)数据库系统和SQL查询引擎的支撑，加之SQL查询语言的复杂性，因此基于SQL的表数据模型在普通的数据分析编程语言环境中操作使用时仍然不够方便。

DataFrame编程模型弥补了SQL表模型的不足，提供了强大而易于使用的数据分析统计编程模型和功能，尤其是基于Python语言的Pandas编程计算框架，在金融等诸多应用领域被广泛关注和应用，成为了DataFrame的主流标准，特别是其提供了除SQL功能以外的灵活易用、功能强大的DataFrame查询特性，备受数据分析人员青睐。

然而，由于Pandas是基于单机和内存的，缺少可扩展性，不具备海量数据处理能力。当数据量超过内存规模，甚至完全无法运行。虽然出现了一些Pandas并行化计算平台如Dask，但由于其是轻量级的，在大规模数据处理性能和容错方面不太成熟。

主流的大数据处理系统Apache Spark能够在分布式环境下很好地处理大规模数据，具备良好的可扩展性，此外，Spark提供了分布式DataFrame编程框架，并基于DataFrame，为Spark中的机器学习库MLlib提供了良好的支撑。然而Spark DataFrame设计上与Pandas DataFrame存在接口不兼容的问题，尤其是Spark DataFrame不支持类PandasDataFrame灵活易用的查询特性，功能不够丰富强大。

发明内容

发明目的：为了解决Pandas DataFrame无法处理大规模数据和Spark现有分布式DataFrame编程模型缺乏灵活易用的查询功能的问题，本发明提供了一种基于Spark的大规模分布式DataFrame的查询方法，该方法可以高效地进行大规模分布式DataFrame的查询，包括基于位置和基于标签的查询，且提供了类Pandas DataFrame接口，解决了现有大数据处理平台下分布式DataFrame缺乏灵活易用的查询功能的问题，使得Spark DataFrame的功能更加丰富强大。

本发明的技术解决方案是：为了实现上述发明目的，本发明采用的技术方案为一种基于Spark的大规模分布式DataFrame的查询方法，包括以下步骤：

(1)采用Python作为编程语言，基于Spark分布式框架，将现有Spark分布式DataFrame的查询接口封装成类Pandas DataFrame的接口(如过滤查询接口filter)，消除Spark DataFrame查询API与Pandas DataFrame API的不兼容性；

(2)基于Spark分布式框架和RDD编程模型，构建轻量级全局索引，利用轻量级全局索引实现大规模DataFrame上的基于位置的点、切片、列表查询，通过遍历Spark RDD分区数据，实现基于标签的点、切片、列表查询，且API与Pandas DataFrame的API完全兼容；

(3)在以上步骤的基础上，进一步基于分布式内存数据库Redis，构建辅助索引，优化基于标签的切片查询方法的性能；

(4)在以上步骤的基础上，进一步在每个Spark RDD分区上构建局部索引，基于共享内存对象数据库Plasma Store进行索引的存储，优化分区数据的查询性能。

进一步地，在所述步骤(1)中，采用DataFrame编程模型，在Python中通过包的形式提供API，通过按照标准Pandas DataFrame API形式的封装，使得含有相似功能的SparkDataFrame查询类算子对于Pandas DataFrame具有很好的兼容性，而底层则通过Spark的分布式计算引擎进行计算。Spark本身的分布式架构为主从式架构(server-client)，包括负责任务调度的Driver进程和运行在各个分布式节点上的Executor进程。当用户提交DataFrame查询任务时，Driver端会将任务分发到各个Executor进行分布式并行计算。

进一步地，所述步骤(2)中，轻量级全局索引的构建是通过收集Spark RDD每个分区的元数据，包括分区号和分区记录数，进一步进行全局编序，形成轻量级全局索引，能够快速定位记录所在的分区位置。

进一步地，所述步骤(2)中，基于位置的切片、列表查询，通过在Spark Driver端利用轻量级全局索引计算好所有查询的目标记录的位置，将查询的目标记录的位置发送到Spark RDD每个分区，进行批量查询，大部分操作只需遍历一次Spark RDD所有分区，提高了查询性能。切片操作查询支持顺序和逆序查询，且支持不同的步长。特别地，逆序的切片查询需要转化为顺序的切片查询，再将结果进行逆序排序。而列表查询分为顺序和无序查询，对于无序查询，查询结果也需要按照查询要求进行全局排序可得到最终的结果。

进一步地，所述步骤(2)中，基于标签的切片查询的过程，首先通过遍历Spark RDD所有分区以确认起始和结束端点标签对应的位置，然后转化为基于位置的切片查询实现查询。基于标签的列表查询则是通过计算出Spark RDD每个分区的查询要求，直接遍历SparkRDD所有数据，进行批量查询，再将结果按照查询要求进行排序得到最终结果。

进一步地，所述步骤(3)中，辅助索引的构建，是通过将标签和位置的映射关系写入分布式内存数据库Redis，从而通过查询Redis可获得标签对应的位置，转化为基于位置的查询，避免了步骤2)中基于标签的切片查询中遍历Spark RDD所有分区的代价，提高了执行性能。

进一步地，所述步骤(4)中，由于Pandas DataFrame对单机数据的处理有很高的性能，局部索引的构建是对Spark RDD的每个分区数据构建Pandas DataFrame对象作为索引结构，并且以共享内存对象的形式存储到共享内存对象Plasma Store中，后续直接通过读取内存对象，进行复用，从而提高了分区数据的查询性能。

本发明的有益效果是：(1)基于Spark的分布式计算框架，通过构建类PandasDataFrame的查询API，消除Spark原生DataFrame查询接口与Pandas DataFrame接口的不兼容性，具有良好的易用性；(2)用户编写的程序实际在Spark分布式平台上执行，具有良好的可扩展性；(3)通过构建轻量级全局索引，在此基础上提供了Spark DataFrame缺乏的分布式场景下基于位置和标签的查询，使得Spark DataFrame能灵活地处理大规模数据的查询，丰富了Spark原生DataFrame的查询功能；(4)通过辅助索引与局部索引的构建，进一步提升了查询的性能。

附图说明

图1是本发明的整体架构示意图。

图2是本发明的轻量级全局索引构建示意图。

图3是本发明基于辅助索引的标签切片查询示意图。

图4是本发明的局部索引构建示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明的技术方案主要基于分布式大数据处理系统Spark进行分布式计算，以及以分布式内存数据库Redis和共享内存对象存储数据库Plasma Store进行存储。分布式大数据处理系统Spark是Apache基金会的一个开源系统(项目主页http://spark.apache.org)。分布式内存数据库Redis(项目主页https://redis.io)是一个基于BSD许可证的开源软件。共享内存对象存储Plasma Store(项目主页https://arrow.apache.org)是Apache基金会下Arrow项目的一部分。整个系统框架如图1所示。本发明的完整流程包括Spark原生DataFrame已有查询算子的封装、轻量级全局索引的构建、基于位置的查询算子的构建、基于标签的查询算子的构建、基于辅助索引的标签切片查询性能优化和基于局部索引的分区查询性能优化共6个部分。具体的实施方式分别说明如下：

Spark原生DataFrame已有查询算子的封装具体实施方式为：Spark原生DataFrame本身存在一些数据查询的功能，以filter算子为例，filter操作在Spark中属于转换操作，会进行惰性计算，需要在filter操作执行收集操作才会实际执行。并且Spark的filter操作的输入参数和Pandas DataFrame的filter操作的输入参数存在较大差异，前者是条件表达式，后者则是特定列，正则表达式或相似字符串。因此通过基于Spark RDD进一步封装，构建类Pandas DataFrame的接口(如filter算子可以通过遍历Spark RDD中每一条记录进行过滤达到要求)，从而消除与Pandas DataFrame接口的不兼容性。

如图2所示，轻量级全局索引的构建具体实施方式为：1)Driver端通过Spark RDD收集每个分区号和分区数据条数元组(splitIndex，count)；2)将元组按照splitIndex进行排序；3)计算出每个分区的元素按左闭右开的编序区间，如splitIndex为0的编序区间为[0，5),splitIndex为1的编序区间为[5,8)等，形成编序区间列表pdata如[[0,5),[5,8)，…]；4)计算出splitIndex和元素编序区间的下标映射关系，如splitIndex为0对应pdata下标为0的编序区间以及下标为0的编序区间对应的splitIndex为0(由于查询结果在Spark RDD某个分区可能为空，会存在下标和splitIndex不一致的情况)，形成splitIndexPidMap和pidSplitIndexMap。以上构建的pdata、splitIndexPidMap和pidSplitIndexMap便是Spark分区数据的轻量级全局索引。

基于位置的查询算子的构建具体实施方式为：基于位置的查询分为基于位置的点、切片、列表查询。由于基于位置的点查询可以转化为基于位置的列表或切片查询，因此重点介绍基于位置的切片、列表查询的具体实施方式。基于位置的切片、列表查询，是通过在Spark Driver端利用轻量级全局索引(即pdata、splitIndexPidMap和pidSplitIndexMap)计算好所有查询数据的位置，将查询信息发送到每个分区，进行批量查询，大部分操作只需遍历一次Spark RDD所有分区，提高了查询的性能。基于位置的切片查询支持顺序和逆序查询，且支持不同的步长。基于位置的切片逆序查询要先转化为基于位置的切片顺序查询，并对每条记录按照实际查询顺序进行全局统一编序，再按照编序反转结果即可得到切片逆序查询的结果。而基于位置的列表查询分为顺序和无序查询，对于无序查询，查询结果数据量较小的情况下可以通过将结果收集到Driver端，再按照查询列表顺序对结果排序得到要求的结果，而查询结果数据量较大的情况下同样按照查询列表顺序进行编序,再进行全局排序可得到最终的结果。

基于标签的查询算子的构建具体实施方式为：基于标签的查询也分为基于标签的点、切片、列表查询。由于基于标签的点查询可以转化为基于标签的列表或切片查询，因此重点介绍基于标签的切片、列表查询的具体实施方式。基于标签的切片查询则是通过首先扫描一遍Spark RDD所有分区，确认起始和结束端点标签的位置，然后则可以转化为基于位置的切片查询。基于标签的列表查询则是通过直接遍历Spark RDD分区的所有数据，直接进行批量查询，再将结果按照查询顺序进行排序得到最终结果。

如图3所示，基于辅助索引的标签切片查询性能优化的具体实施方式为：辅助索引的构建，是通过将标签和位置的映射关系写入分布式内存数据库Redis，Driver端通过查询Redis可获得标签对应的位置，然后则可以转化为基于位置的查询，从而避免了基于标签的切片查询中扫描Spark RDD所有分区数据的代价，提高了执行性能。

如图4所示，基于局部索引优化分区查询性能的具体实施方式为：局部索引的构建是对Spark RDD的每个分区数据构建索引，并且以共享内存对象的形式将索引对象存储到共享内存对象Plasma Store中实现一次构建多次复用。当每个Executor启动任务Task执行Python函数或Lambda表达式时，会由pyspark.daemon进程启动的pyspark.worker进程，直接读取Plasma Store中的内存索引对象，利用内存索引对象进行高效查询，从而提高了分区数据的查询性能。具体的实现，本发明是将所有分区数据转化为Pandas DataFrame对象，作为索引结构，因为Pandas DataFrame天然满足标准的DataFrame接口，能够直接高效地支持绝大部分查询操作，并且分区Pandas DataFrame对象又能够无缝地以共享内存对象存入Plasma Store，后续直接通过读取内存对象，进行复用，从而提高了分区数据的查询性能。

本发明实现的原型系统在进行大规模DataFrame查询时，如表1所示，经过辅助索引优化后，标签切片查询性能提升在20％左右；如表2所示，经过局部索引优化后，由于读取索引需要一定开销，对小规模数据效果不佳，但在大规模数据处理上达到45％-65％的性能提升。综上所述，证明了本发明提出的方法对于Spark上进行大规模DataFrame查询的有效性，验证了本发明的有益效果。

表1：本发明基于辅助索引优化的标签切片查询与未优化的标签切片查询的性能比较(单位：秒)

表2：本发明基于局部索引优化的位置切片查询与未优化的位置切片查询的性能比较(单位：秒)

/>

Claims

1.一种基于Spark的大规模分布式DataFrame的查询方法，包括以下步骤：

(1)采用Python作为编程语言，基于Spark分布式平台，将Spark原生DataFrame的查询接口封装成类Pandas DataFrame接口，以消除与Pandas DataFrame API的不兼容性；

(2)基于Spark分布式平台，构建轻量级全局索引，利用轻量级全局索引实现大规模DataFrame上的基于位置的点、切片、列表查询，通过遍历Spark RDD所有分区实现基于标签的点、切片、列表查询，且API与Pandas DataFrame兼容；

(3)进一步基于分布式内存数据库Redis，构建辅助索引，优化基于标签的切片查询的性能；

(4)进一步在Spark RDD每个分区构建局部索引，基于共享内存对象数据库PlasmaStore进行索引的存储，优化Spark RDD分区查询的性能；

所述步骤(2)中，轻量级全局索引的构建是通过收集Spark RDD每个分区的元数据，进一步通过全局编序，形成轻量级全局索引，能够快速定位记录所在的分区位置；

所述步骤(3)中，辅助索引的构建，是通过将标签和位置的映射关系写入分布式内存数据库Redis，从而通过查询Redis获得标签对应的位置，转化为基于位置的查询，避免了步骤(2)中基于标签的切片查询中遍历Spark RDD所有分区的开销，提高了执行性能；

所述步骤(4)中，局部索引的构建是通过对Spark RDD每个分区数据构建索引，并且以共享内存对象的形式将索引对象存储到共享内存对象数据库Plasma Store中，实现一次构建多次复用，从而提高分区数据的查询性能。

2.根据权利要求1所述的一种基于Spark的大规模分布式DataFrame的查询方法，其特征在于：所述步骤(1)中采用DataFrame模型，在Python程序中通过包的形式提供类PandasDataFrame API，而程序能够运行在Spark分布式计算平台上。

3.根据权利要求1所述的一种基于Spark的大规模分布式DataFrame的查询方法，其特征在于：所述步骤(2)中，基于位置的切片、列表查询，通过在Spark Driver端利用轻量级全局索引计算出所有查询的目标记录的位置，将查询的目标记录的位置发送到每个分区，进行批量查询，大部分操作只需遍历一次Spark RDD所有分区，提高了查询的性能；而基于标签的切片查询则是通过扫描一遍Spark RDD分区，确认起始和结束端点位置，转化为基于位置的切片查询；基于标签的列表查询则是通过直接遍历Spark所有数据，进行批量查询，再将结果按照查询顺序进行排序得到最终结果；基于位置和基于标签的切片查询均支持顺序和逆序查询，步长可变；基于位置的列表查询支持顺序和无序查询；基于标签的列表查询支持无序查询。