CN105550293B

CN105550293B - 一种基于Spark‑SQL大数据处理平台的后台刷新方法

Info

Publication number: CN105550293B
Application number: CN201510919868.6A
Authority: CN
Inventors: 王成; 冯骏; 范丛明; 赵术开
Original assignee: Shenzhen Huaxun Fangzhou Software Technology Co Ltd; Shenzhen Huaxun Ark Technology Co Ltd
Current assignee: Shenzhen Huaxun Ark Photoelectric Technology Co ltd; Shenzhen Huaxun Fangzhou Software Technology Co ltd
Priority date: 2015-12-11
Filing date: 2015-12-11
Publication date: 2018-01-16
Anticipated expiration: 2035-12-11
Also published as: WO2017096941A1; CN105550293A

Abstract

本发明公开了一种基于Spark‑SQL大数据处理平台的后台刷新方法，在Spark‑SQL的入口函数中创建刷新进程并设定定时刷新机制，定时扫描分布式文件系统HDFS的指定表空间文件目录结构。在Spark安装目录的conf文件夹下的hive‑site.xml中增加配置项，可以自定义配置刷新进程是否开启，刷新间隔与要刷新的大数据表空间集合。本发明在大数据的背景下，大幅缩短Spark‑SQL大数据处理平台的首次查询时间；以20T数据为例，大数据表按照小时作为第一分区分为25个区，按照手机号码前3位作为第二分区分为1001个区，并按照PARQUET格式进行压缩存储，针对查询某个时间段某个号码段所有数据总数的查询，原来首次查询时间为20分钟左右，本发明所优化的后台刷新方法使得首次查询的时间缩短为45秒左右。

Description

一种基于Spark-SQL大数据处理平台的后台刷新方法

技术领域

本发明涉及一种大数据处理平台的后台刷新方法，尤其涉及一种基于Spark-SQL大数据处理平台的后台刷新方法。

背景技术

随着互联网、移动互联网和物联网的发展，我们迎来了一个大数据的时代，对这些大数据的处理和分析已经成为一个非常重要且紧迫的需求。

随着技术的发展，大数据处理平台经历了最初的Hadoop和Hbase，以及后来发展起来的基于SQL的Hive、Shark等。基于key-value的Hbase等处理平台也逐渐兴起。而如今SQL-on-Hadoop概念的兴起又促使Spark生态发展壮大，逐渐成为最热门，使用最多，效率最好的一种大数据处理平台。

不管采取哪种大数据处理平台，它们的目的都是处理和分析大数据，从中分析和挖掘出有用的数据供人们使用。从最基本的原理来看，无论是基于Map-Reduce的Hadoop，还是基于Key-Value键值对的Hbase，或者是基于RDD的Spark，它们的总体处理流程都是相同的，都是包含了数据导入->数据分析和处理->数据结果展示三个主要步骤，其中最重要的两个部分为数据导入和数据分析处理过程，数据导入的速度决定了整个系统能够实时处理数据速度，影响到整个系统的处理性能，数据导入和分析的过程则是数据处理的核心。

如图1所示，Spark大数据处理平台总体框架是：Spark大数据处理平台的数据导入功能由Spark-SQL实现，即由Hive on Spark来实现的，Hive查询可以作为Spark的任务提交到Spark集群上进行计算。Hive相较于Impala和Shark等对SQL语法有着更全面的支持和更为广泛的用户基础。数据导入通常涉及导入内容、存储格式、导入速度等关键点：

1、导入内容

通常导入内容可以为格式化或非格式化的文本文件，以特定的分隔符或文件格式分隔每一条记录及每一个字段，数据内容可以是文件形式传送，也可以是数据流形式传送，且大小具有不确定性。

2、存储格式

存储数据的格式可以是文本格式，也可以是压缩格式，以减少磁盘使用量，目前Spark-SQL支持的压缩格式有zip、snappy及parquet等等。

在大数据的背景下，导入数据可以根据内容进行分区，将数据按分区进行存储，可加快查询速度。

3、导入速度

在大数据的背景下，由于数据在源源不断地产生，这就对数据导入速度提出了较高的要求，根据实际情况要求导入速度不得低于x条每秒或者xMB每秒，同时还要求保证不得出现数据丢失、数据导入错误、数据积压等情况。

现有技术中，基于Spark-SQL数据导入与数据刷新方案(外部数据文件为文本格式)如下：

当发起查询时，可以在条件子句中加入信息，从而限定查询的数据范围。在Spark大数据处理平台中，不同的存储格式有着不同的刷新机制，主要为如下两种：

i)若数据最终按文本(TEXTFILE)或优化列存储(ORC)ZIP或SNAPPY进行存储，每次查询大数据表时，会先扫描分布式文件系统HDFS上的目录结构和更新元数据库，能识别出HDFS上该表空间的所有更新，包括插入、修改和删除操作。在目录结构多、数据文件多的情况下，每扫描一次HDFS的时间都很长，且随着时间的推移而增加。扫描HDFS的时间包含在了查询时间中，扫描完HDFS以后Spark才会根据扫描结果划分任务，提交给执行器去执行，因此扫描时间的长短直接影响了查询时间的长短。

ii)若数据最终按PARQUET格式进行压缩存储，首次查询数据表时，会先扫描分布式文件系统HDFS上的目录结构和更新元数据库，因此在大数据的背景下，首次查询的时间会很长；而非首次查询不再去扫描HDFS的目录结构，直接利用首次查询的扫描结果，旨在缩短最终的查询时间。这种机制的优点在于非首次查询的速度较快，但也存在着不容忽视的弊端，那就是在首次查询的扫描以后，任何对HDFS上该表空间的直接修改都不能识别，任何插入和删除操作(HDFS原则上不支持修改操作)都只能通过Spark-SQL来完成，在Spark执行器资源有限的情况下，读和写均占用了一定的系统资源，间接导致了数据导入速度和查询速度的下降。另外，当HDFS上该表空间的某个数据文件丢失时，会导致Spark上对该表的所有查询失败，出现该文件不存在的错误，只能重启Spark-SQL进程，重新进行首次查询并扫描HDFS。

综上所述，现有技术中存在的问题有：

1、Spark-SQL首次查询会根据查询的表扫描其在HDFS分布式文件系统中整个表空间，并保存该表空间快照，在大数据的背景下，首次查询需要非常长的时间，不能满足时间要求。在扫描以后对该表的任何修改，Spark-SQL都不能识别。

2、现有技术基于hive或者Spark-SQL的数据导入程序，采用Scala语言编写，运行在JVM虚拟机上，存在效率低、速度慢、容易内存溢出等问题。Scala是一种纯粹的面向对象编程语言，它用Scalac编译器把源文件编译成Java的class文件(即在JVM上运行的字节码)，所以是解释型语言，查询及导入效率较低。

3、在Spark大数据处理平台的Standalone模式下，控制节点存在资源上的浪费。现有技术中，Spark大数据处理平台一般部署为一个集群，集群由若干台机器组成。在集群运行过程中，通常外部数据的导入和对数据的实时查询同步进行，因此，集群中机器的资源将同时分配给数据导入程序和数据查询程序，在IO冲突、CPU时间争抢以及内存的申请方面，两者必将有或多或少的冲突，严重时两者性能将大打折扣。

发明内容

本发明要解决的技术问题是在大数据的背景下，避开首次查询扫描分布式文件系统HDFS的步骤，大幅缩短Spark-SQL大数据处理平台的首次查询时间。

为了解决上述技术问题，本发明基于Spark-SQL大数据处理平台的后台刷新方法是在Spark-SQL的入口函数中创建刷新进程并设定定时刷新机制，定时扫描分布式文件系统HDFS的指定表空间文件目录结构。

在Spark安装目录的conf文件夹下的hive-site.xml中增加配置项，可以自定义配置后台刷新进程是否开启，刷新间隔大小与要刷新的大数据表空间集合。

若开启后台刷新进程，则在刷新进程首次刷新完成之前，内存中尚没有指定表空间的目录结构信息，这时Spark-SQL若收到查询语句，则采用原始的首次刷新策略，查询之前先扫描分布式文件系统HDFS指定表空间的文件目录结构；若刷新进程首次刷新完成，则将HDFS上指定表空间的目录结构信息保存在内存中，当Spark-SQL接收到查询语句时则不再扫描HDFS，直接使用内存中该表空间的目录结构信息，达到缩短查询时间的效果。

所述刷新间隔是刷新一次所用时间的十分之一至二分之一，或者，所述刷新间隔是5秒至10秒，可以根据产品或者用户需求自定义所述刷新间隔大小。

将外部数据文件进行压缩存储，所述压缩格式为ZIP、BZ2、SNAPPY或PARQUET。

采用Scala编程，修改Spark源码中关于Spark-SQL执行查询语句的策略。

在刷新以前，先依次进行创建临时表、创建带分区信息的大数据表、将文本格式的数据文件导入临时表、处理临时表数据并存入带有分区信息的大数据表。

所述创建临时表是：根据数据模型创建用于存储文本格式数据的临时表，该临时表用来作为最终数据表的数据源；

所述创建带分区信息的大数据表是：在大数据的背景下，创建带有分区信息的大数据表可以提高数据查询的速度；实际应用中，按时间中的月、周、天或小时进行分区，或者，按照字符串的某个子串进行分区，或者，按整数区间进行分区，或者，进行组合分区，进一步划分数据，将数据分区，提高数据查询速度；

所述将文本格式的数据文件导入临时表是：根据数据文件格式，执行Spark-SQL语句或者Hadoop支持的Load语句，将文本格式的数据直接导入临时表中。

所述处理临时表数据并存入带有分区信息的大数据表是：执行指定分区格式与存储格式的Spark-SQL语句，将临时表中的数据按照指定分区格式进行分析和处理，再按照指定的存储格式(压缩格式)将数据写入到最终的大数据表中；这一步中，Spark首先将上述临时表空间中的数据根据配置分为RDD数据块，每个RDD数据块分配给指定任务进行并行处理，再通过Spark-SQL的内部转化机制，将SQL语句中的分区信息转化为针对RDD数据块的特定操作方法，从而基于RDD数据块对数据进行分区，并将分区后的数据进行压缩处理，写入到分布式文件系统HDFS中。

本发明基于Spark-SQL大数据处理平台的后台刷新方法与现有技术相比具有以下有益效果。

1)在大数据的背景下，大幅缩短Spark-SQL大数据处理平台的首次查询时间；以20T数据为例，大数据表按照小时作为第一分区分为25个区(0～23点与一个默认分区)，按照手机号码前3位作为第二分区分为1001个区(000-999与一个默认分区)，并按照PARQUET格式进行压缩存储，针对查询某个时间段某个号码段所有数据总数的查询，原来首次查询时间为20分钟左右，本发明所优化的后台刷新方法使得首次查询的时间缩短为45秒左右。

2)在使用更高效快速的数据导入程序同时，识别出HDFS分布式文件系统的新增文件，保存在元数据中，用于用户查询请求。用Spark-SQL原始的数据导入方法速度为2万条/秒，采用更高效快速的数据导入程序直接将数据写入HDFS时可将数据导入速度提升至20万条/秒甚至更高(取决于并发数)，而绕过了Spark直接写入HDFS上的新文件，本发明所提出的后台刷新方法可以识别出指定表空间所有新增文件并可用于查询，不再需要重启Spark-SQL服务，也不会增加查询的时间。

3)提高Spark大数据处理平台控制节点的系统资源利用率。原生的Spark数据导入程序即为Spark-SQL的数据导入语句，进行数据导入程序时会占用一部分甚至全部的Spark大数据处理平台的计算资源，很大程度上影响了数据查询的速度和效率。使用更高效的数据导入程序独立于Spark单独处理数据，使得系统利用率更高。同时后台刷新采用独立进程，不占用原Spark的系统资源。

4)由于在大数据的背景下，磁盘空间也是系统可用性的一个瓶颈，因此将外部数据文件进行压缩存储十分必要。Spark中常见的压缩格式有ZIP、BZ2、SNAPPY和PARQUET，其中PARQUET格式支持Hadoop生态系统中所有项目，提供高效率压缩的列式数据表达，而且与数据处理框架、数据模型和编程语言无关，因此可以优先选择PARQUET格式作为大数据存储格式。Spark大数据处理平台对PARQUET格式的数据查询有一定的局限性，对于以PARQUET格式存储的大数据表，Spark-SQL只有在首次查询该表的时候会扫描HDFS上该表的目录结构，此后不再进行扫描，因此无法识别出在首次查询之后新增或删除的目录结构。采用本发明的后台刷新技术，可以有效解决这一问题。

5)采用Scala编程，修改Spark源码中关于Spark-SQL执行查询语句的策略，可大大提高编程效率。

附图说明

图1是现有技术中Spark大数据处理平台总体框架示意图。

图2是本发明基于Spark-SQL大数据处理平台的后台刷新方法的流程图。

图3是修改后数据查询的流程图。

具体实施方式

如图2和图3所示，本实施方式基于Spark-SQL大数据处理平台的后台刷新方法是在Spark-SQL的入口函数中创建刷新进程并设定定时刷新机制，定时扫描分布式文件系统HDFS的指定表空间文件目录结构，作为一种优选，刷新结果保存在内存中用于支持该表数据的查询请求。

若开启刷新进程，则在刷新进程首次刷新完成之前，内存中尚没有指定表空间的目录结构信息，这时Spark-SQL若收到查询语句，则采用原始的首次刷新策略，查询之前先扫描分布式文件系统HDFS指定表空间的文件目录结构；若刷新进程首次刷新完成，则将HDFS上指定表空间的目录结构信息保存在内存中，当Spark-SQL接收到查询语句时则不再扫描HDFS，直接使用内存中该表空间的目录结构信息，达到缩短查询时间的效果。

所述创建带分区信息的大数据表是：在大数据的背景下，创建带有分区信息的大数据表可以提高数据查询的速度；实际应用中，按时间中的月、周、天或小时进行分区，或者，按照字符串的某个子串进行分区，或者，按整数区间进行分区，或者，进行组合分区，进一步划分数据，提高数据查询速度；

所述将文本格式的数据文件导入临时表是：根据数据文件格式，执行Spark-SQL语句或者Hadoop支持的Load语句，将数据直接导入临时表中。

如图2所示，图示是后台刷新流程图。

1)采用Scala语言编程，在Spark-SQL的入口函数中增加后台刷新进程，定时扫描分布式文件系统HDFS上的指定表空间目录结构，并保存到内存中，供数据查询使用。Spark-SQL启动后首先读取hive-site.xml配置文件，解析出后台刷新进程相关配置项，并设置定时刷新机制，以消息触发的方式进行定时刷新。每次刷新时，Spark-SQL创建待刷新的大数据表的查询计划，根据查询计划定位到内存中存储该表信息的空间，调用其属性中的刷新方法，扫描分布式文件系统HDFS上的该表目录结构。该刷新方法会覆盖之前的扫描结果，覆盖之前不会清空原有结果，因此保证了在刷新过程中接收到数据查询请求时也有数据可查。

如图3所示，图3是修改后数据查询流程图。

2)修改Spark-SQL处理数据查询的策略，首次查询时扫描分布式文件系统HDFS的工作由后台刷新进程完成，首次查询直接使用后台刷新进程扫描结果，缩短查询时间。修改后，首次查询与非首次查询的策略一致，即每次查询都直接使用内存中由后台刷新进程扫描出的该表目录结构信息的结果。

3)后台刷新功能可以自定义

运行Spark-SQL之前，可以自定义配置后台刷新功能相关项，如是否开启后台刷新功能、待刷新的大数据表集合、刷新间隔时间等。配置项位于Spark安装目录的conf文件夹下的hive-site.xml中，启动Spark-SQL时一次性读取并解析所有配置项，不需要额外的程序读取并解析配置文件，节省系统开销。

本发明的关键点如下。

1)采用Scala语言编程，集成到Spark源码中，在不影响原生Spark所有功能的前提下，增加后台刷新进程。

2)修改原Spark-SQL的处理查询策略，提高首次查询的速度。

3)刷新进程支持Spark所有支持的数据压缩格式，如PARQUET、SNAPPY、ZIP等。

4)后台刷新技术使得分离Spark的数据导入与数据查询成为可能，提高系统资源利用率。

本发明的优点如下。

1)使得采用高效快速的数据导入程序成为可能，能识别出分布式文件系统HDFS上指定表空间的所有更新，包括增加、删除和修改操作。同时，数据导入程序独立于Spark，与数据查询互不影响，提高各自处理能力。

2)修改原Spark-SQL处理查询语句的策略，将扫描分布式文件系统HDFS的功能归并到单独的刷新进程中处理，大幅缩短查询的时间。

需要说明的是，以上参照附图所描述的各个实施例仅用以说明本发明而非限制本发明的范围，本领域的普通技术人员应当理解，在不脱离本发明的精神和范围的前提下对本发明进行的修改或者等同替换，均应涵盖在本发明的范围之内。此外，除上下文另有所指外，以单数形式出现的词包括复数形式，反之亦然。另外，除非特别说明，那么任何实施例的全部或一部分可结合任何其它实施例的全部或一部分来使用。

Claims

1.一种基于Spark-SQL大数据处理平台的后台刷新方法，其特征在于：在Spark-SQL的入口函数中创建刷新进程并设定定时刷新机制，在Spark安装目录的conf文件夹下的hive-site.xml中增加配置项，自定义配置后台刷新进程是否开启，刷新间隔大小与要刷新的大数据表空间集合，定时扫描分布式文件系统HDFS的指定表空间文件目录结构。

2.根据权利要求1所述基于Spark-SQL大数据处理平台的后台刷新方法，其特征在于：若开启刷新进程，则在刷新进程首次刷新完成之前，内存中尚没有指定表空间的目录结构信息，这时Spark-SQL若收到查询语句，则采用首次刷新策略，查询之前先扫描分布式文件系统HDFS指定表空间的文件目录结构；若刷新进程首次刷新完成，则将HDFS上指定表空间的目录结构信息保存在内存中，当Spark-SQL接收到查询语句时则不再扫描HDFS，直接使用内存中该表空间的目录结构信息。

3.根据权利要求1所述基于Spark-SQL大数据处理平台的后台刷新方法，其特征在于：所述刷新间隔是刷新一次所用时间的十分之一至二分之一，或者，所述刷新间隔是5秒至10秒。

4.根据权利要求1所述基于Spark-SQL大数据处理平台的后台刷新方法，其特征在于：将外部数据文件进行压缩存储，压缩格式为ZIP或PARQUET。

5.根据权利要求1所述基于Spark-SQL大数据处理平台的后台刷新方法，其特征在于：采用Scala编程，修改Spark源码中关于Spark-SQL执行查询语句的策略。

6.根据权利要求1所述基于Spark-SQL大数据处理平台的后台刷新方法，其特征在于：在刷新以前，先依次进行创建临时表、创建带分区信息的大数据表、将文本格式的数据文件导入临时表、处理临时表数据并存入带有分区信息的大数据表。

7.根据权利要求1所述基于Spark-SQL大数据处理平台的后台刷新方法，其特征在于：在使用数据导入程序同时，识别出HDFS分布式文件系统的新增文件，保存在元数据中，用于用户查询请求。

8.根据权利要求6所述基于Spark-SQL大数据处理平台的后台刷新方法，其特征在于：

所述创建带分区信息的大数据表是：在大数据的背景下，创建带有分区信息的大数据表；实际应用中，按时间中的月、周、天或小时进行分区，或者，按照字符串的某个子串进行分区，或者，按整数区间进行分区，或者，进行组合分区，进一步划分数据；

所述处理临时表数据并存入带有分区信息的大数据表是：执行指定分区格式与存储格式的Spark-SQL语句，将临时表中的数据按照指定分区格式进行分析和处理，再按照指定的存储格式将数据写入到最终的大数据表中；这一步中，Spark首先将上述临时表的空间中的数据根据配置分为弹性分布数据集RDD数据块，每个RDD数据块分配给指定任务进行并行处理，再通过Spark-SQL的内部转化机制，将SQL语句中的分区信息转化为针对RDD数据块的特定操作，从而基于RDD数据块对数据进行分区，并将分区后的数据进行压缩处理，写入到分布式文件系统HDFS中。