CN108256115A

CN108256115A - 一种面向SparkSql的HDFS小文件实时合并实现方法

Info

Publication number: CN108256115A
Application number: CN201810142899.9A
Authority: CN
Inventors: 马秉楠; 吕雁飞; 张鸿; 何清林; 惠榛
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2017-09-05
Filing date: 2018-02-11
Publication date: 2018-07-06
Anticipated expiration: 2038-02-11
Also published as: CN108256115B

Abstract

本发明提供了一种面向SparkSql的HDFS小文件实时合并的实现方法，属于大数据处理技术领域。定期筛选HDFS中待合并的小文件，对得到的待合并小文件，生成合并小文件的Spark任务，并提交至Yarn上执行；对完成小文件合并的结果信息放置于待替换列表中；结合Zookeeper保持SparkSql在使用合并后文件替换被合并文件时维持正常运行；根据SparkSql实时检索数据库表的情况，在Zookeeper中注册和注销相应数据库表的读状态；在文件替换时，通过网络在SparkSql中进行文件元数据缓存增量更新。本发明可以在保持SparkSql正常运行的情况下，实现实时合并HDFS小文件，有效的提高SparkSql的检索效率，在大数据处理领域具有很强的实用性和应用范围，具有很广泛的应用前景。

Description

一种面向SparkSql的HDFS小文件实时合并实现方法

技术领域

本发明属于大数据处理领域，具体涉及一种面向SparkSql的HDFS(Hadoop分布式文件系统)小文件实时合并的实现方法。

背景技术

随着计算机技术的不断发展和信息化程度的不断提高，数据量迅速增长，面向海量数据存储及应用也随之蓬勃发展。大数据应用越来越广泛，如，在网络安全上，使用大数据技术分析网络攻击行为；在电子商务上，使用大数据技术分析用户购物喜好或最受青睐的商品。大数据技术在建设节约型社会，提高生成效率等方面起到了积极的推动作用。

Spark是专为大规模数据处理而设计的快速通用的计算引擎。在海量数据检索应用中，分布式检索框架SparkSql作为一种优秀的大数据检索方法被广泛的使用。Hive是基于Hadoop的一个数据仓库处理工具，使用类SQL的HiveQL语言实现数据查询，所有Hive的数据都存储在Hadoop兼容的文件系统(例如，Amazon S3、HDFS)中。SparkSql提供了同Hive的HiveQL接口，具有较高的效率及可用性。但是随着数据量的不断增加以及对文件加载延迟的更高要求，HDFS中过多的小文件降低了SparkSql的检索效率和并发处理任务的能力，这个问题直接的影响了业务应用。

使用SparkSql进行检索时，Spark Driver(驱动)会获取被检索文件的元数据并进行缓存，以此来生成Spark Task(任务)分发到集群的各个节点上执行。在实际的工程实践中，为了使加载的数据能够尽快地被SparkSql检索到，往往不会等待加载数据积累很多就进行新文件的生成，这种加载方法使得SparkSql检索的文件容量较小、文件数量过多。这造成的问题是显而易见的：首先，由于检索过程中SparkSql要将所有待检索的文件元数据在Spark Driver进程内存中进行缓存，此时检索文件过多就造成单个SparkSql检索任务占用的内存过大，受限于服务器的物理内存而无法进行过多的并发检索；其次由于文件较小，在进行相同规模数量的检索中会分布式读取更多的文件，在Spark Task调度和文件获取等步骤上有较大的时间开销，造成SparkSql的检索效率较低。

发明内容

为了解决上述SparkSql使用中出现的关键问题，本发明提供了一种面向SparkSql的HDFS小文件实时合并的实现方法，以减少SparkSql检索的目标文件的数量，从而降低SparkSql检索文件的资源开销和时间开销，提高SparkSql检索支持的任务并发数量，有效的提高了SparkSql框架的检索效率和可用性。

本发明提供的一种面向SparkSql的HDFS小文件实时合并的实现方法，包括：

(1)定期筛选HDFS中待合并的小文件，包括：将设置的文件合并策略预先存放在Hivemetastore中；从Hive metastore获取各个数据库表信息和文件合并策略；根据得到的数据库表信息在HDFS中遍历获取相应的文件元数据，根据文件合并策略对获取的文件元数据进行筛选，将符合合并策略的小文件筛选出，并缓存至内存中；

(2)对得到的待合并小文件，生成合并小文件的Spark任务，并提交至Yarn上执行；对完成小文件合并的结果信息放置于待替换列表中；

(3)结合Zookeeper保持SparkSql在使用合并后文件替换被合并文件时维持正常运行；根据SparkSql实时检索数据库表的情况，在Zookeeper中注册和注销相应数据库表的读状态；

(4)在文件替换时，通过网络在SparkSql中进行文件元数据缓存增量更新；

在SparkSql中对库表的文件元数据进行缓存，在SparkSql中启动一个Http服务线程，通过该线程接收小文件合并服务发来的合并结果，来达到SparkSql文件元数据增量更新的目的。

本发明的优点与积极效果在于：本发明方法在SparkSql正常运行的情况下，通过将小文件合并有效地提高SparkSql运行效率，使SparkSql支持对更大规模的分布式数据进行检索。本发明方法能够减少HDFS的文件数量，降低SparkSql运行时的资源压力，提高SparkSql并发处理任务的能力，有效提升SparkSql的检索效率和可用性。本发明方法避免了SparkSql在进行大结果集检索时可能出现的内存问题，并且较大幅度的提高了检索的响应速度，减少了检索的总耗时，符合当下大数据检索实际需求，在大数据处理领域具有很强的实用性和应用范围，具有很广泛的应用前景。

附图说明

图1为本发明方法中待合并小文件筛选的流程图；

图2为本发明方法中小文件合并任务执行流程图；

图3为本发明的SparkSql与小文件合并系统信息同步流程图；

图4为本发明方法中使用生成文件替换被合并文件流程图。

具体实施方式

为了能够更清楚了解本发明的技术手段，下面将结合附图和实施例对本发明的技术方案作进一步的详细说明。

本发明提供了一种面向SparkSql的HDFS小文件实时合并的实现方法，包括：结合Hive metastore与HDFS获取相关文件元数据并筛选小文件的方法；将待合并文件按照策略生成Spark任务提交至Yarn上合并的方法；结合Zookeeper保持SparkSql在合并后文件替换被合并文件时维持正常运行的方法；在文件替换后通过网络在SparkSql中进行文件元数据缓存增量更新的方法。使用本方法可以在保持SparkSql正常运行的情况下，实现实时合并HDFS小文件，以有效的提高SparkSql的检索效率。metastore是Hive中连接MySQL数据库获取元数据的服务。YARN是一种Hadoop资源管理器，ZooKeeper是一个分布式的、开放源码的分布式应用程序协调服务。下面结合图1～图4来说明各个实现部分。

如图1所示，为对筛选HDFS中待合并的小文件的一个实现流程，具体步骤如下：

步骤101：在Hive metastore中读取预先设置的对各数据库表的小文件合并策略。小文件合并策略预先存放在Hive metastore中。

步骤102：在Hive metastore中读取各数据库表的文件目录元数据，根据获取的信息到HDFS中获取相应的文件元数据。

步骤103：根据步骤101获取的文件合并策略，遍历步骤202中获取的表文件元数据，筛选出符合合并策略的小文件，并将筛选到的小文件列表进行缓存。

步骤104：根据实际业务情况设置合适的休眠时间，休眠结束后跳转到步骤101。通过定期执行上面步骤来实现对HDFS中的待合并小文件的实时发现。

所述的小文件合并策略中设置了合并条件，对获取的表文件元数据进行判断，当符合合并条件时，就属于要合并的小文件。

如图2所示，为本发明小文件合并任务执行的一个实现流程，具体步骤如下：

步骤201：根据集群实际的可用资源数量，建立适当线程数量的小文件合并任务提交线程池。

步骤202：判断现在是否有筛选得到的待合并小文件需要合并，若有则进入步骤204；否则进入步骤203。

步骤203：轮询是否有新筛选出的待合并小文件，有新的小文件后跳转到步骤201。

步骤204：读取待合并小文件的文件元数据，并将其进行缓存。

步骤205：根据小文件合并策略选取步骤204中读取的合适数量的小文件，生成对这些小文件进行合并的Spark任务，等待执行。

步骤206：使用步骤201中建立的小文件合并线程池，并发提交执行步骤205中生成的小文件合并任务到Yarn上进行分布式执行。

步骤207：在步骤206提交执行的小文件合并任务结束后，读取合并任务生成的文件数据以及被合并的小文件数据，对比数据一致性，以判断本次的小文件合并任务是否执行成功。将本次小文件合并的结果信息放置于待进行文件替换的列表中，等待时机使用合并生成文件对被合并小文件进行替换。

在获得待合并的小文件列表后，根据实际小文件合并策略和集群实际可用资源数量，灵活生成合并小文件的Spark任务，并将任务提交到Yarn上来使用集群资源分布式执行。在合并任务执行完成之后，读取合并生成的文件以及被合并的相应小文件，通过对这两个数据集合的对比来确定文件合并任务是否执行成功，以此来保证数据合并前后的一致性。通过该方法可以实时地使用集群闲置资源进行小文件合并。

如图3所示，为本发明对SparkSql与小文件合并系统信息同步的一个实现流程，具体步骤如下：

步骤301：接收到用户提交到SparkSql进行检索的SQL语句。

步骤302：通过Zookeeper读取该表是否正在进行小文件合并后的文件替换操作。

步骤303：判断步骤302中获取到的结果，若是则进入步骤305；否则跳转到步骤304。

步骤304：等待一段时间后跳转到步骤302。相当于从Zookeeper中轮询获取该被检索表是否处于小文件合并后的小文件替换阶段。

步骤305：在Zookeeper中注册该表为正在检索读取的状态，避免在检索过程中小文件合并服务进行该表的文件替换。

步骤306：进行SparkSql的库表检索操作。

步骤307：在本次检索结束后，将注销表的读状态，完成本次检索。

本发明方法根据SparkSql实时检索数据库表情况，在Zookeeper中注册和注销相应表的读状态。在替换过程中读取Zookpeeper中相应库表的状态，如果相应库表处于在读的状态，则会延迟进行文件的替换。相应的，在文件进行替换的时候，将在Zookeeper中注册库表为正在替换的状态，此时SparkSql也对相应库表的检索操作做延迟等待的处理。通过本发明信息同步处理方法，可以有效地避免合并后文件对合并前文件的替换对SparkSql检索的干扰，以保障在小文件合并的同时，SparkSql能够高可用的运行。

如图4所示，为本发明使用生成文件替换被合并文件的流程示意图，具体步骤如下：

步骤401：读取步骤207中所述的小文件合并完成文件待替换列表。

步骤402：判断步骤401是否存在待进行替换的合并生成文件被读取到，若是则进入步骤404；否则跳转到步骤403。

步骤403：等待适当时间后跳转到步骤401。相当于轮询是否有新的小文件合并任务执行成功，产生了等待替换的合并结果文件。

步骤404：选取一个待替换的合并结果文件，从Zookeeper中获取确认是否有步骤305所注册的表在读操作。

步骤405：根据步骤404中的读取结果，若是则进入步骤407；否则跳转至步骤406。

步骤406：将本次进行替换文件的相关信息放置回待替换文件列表的末端，并跳转回步骤401。

步骤407：在Zookeeper中注册此合并替换文件所属表处于文件正在替换状态，以供步骤302进行读取。

步骤408：使用合并任务生成的文件替换被合并的小文件。

步骤409：在Zookeeper中注销步骤407中所在Zookeeper注册的表正在替换状态。完成本次的文件替换操作，跳转回步骤401。

本发明方法在文件替换后通过网络在SparkSql中进行文件元数据缓存增量更新。在SparkSql中对库表的文件元数据进行缓存，以降低检索时获取文件元数据的时间和资源开销。本发明方法在SparkSql中启动一个Http服务线程，通过该线程接收相应请求来达到SparkSql文件元数据增量更新的目的。小文件合并服务在文件合并后，向SparkSql的文件元数据增量更新Http服务发送相关的合并结果信息。SparkSql会根据收到的合并结果信息，移除相应库表中被合并小文件的文件元数据，并且将合并生成的文件所对应的文件元数据放置到SparkSql相应缓存之中。通过网络在SparkSql中进行文件元数据缓存增量更新的使用，可以在小文件合并完成时，灵活的增量更新SparkSql中的相应库表文件元数据，通过这种方式将有效的避免了小文件合并后SparkSql文件元数据全量更新造成的巨大开销，大幅提高了SparkSql的运行效率。

本发明提供的面向SparkSql的HDFS小文件实时合并的实现方法，通过保持SparkSql正常运行的情况下，将HDFS中的小文件进行合并，可以有效提高SparkSql检索数据时的检索效率，并大幅提高SparkSql在高并发场景下处理任务的能力。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种面向SparkSql的HDFS小文件实时合并实现方法，其特征在于，包括四方面：

2.根据权利要求1所述的方法，其特征在于，所述的(1)中，为每个业务库表设置一个文件合并策略。

3.根据权利要求1所述的方法，其特征在于，所述的(2)中，根据文件合并策略和集群实际可用资源数量，生成合并小文件的Spark任务，并将任务提交到Yarn上，使用集群资源分布式执行。

4.根据权利要求1或3所述的方法，其特征在于，所述的(2)中，在合并任务执行完成之后，将读取合并生成的文件以及被合并的相应小文件，通过对两个数据集合的对比来确定文件合并任务是否执行成功，以保证数据合并前后的一致性。

5.根据权利要求1所述的方法，其特征在于，所述的(3)中，在替换过程中，读取Zookpeeper中相应数据库表的状态，如果相应数据库表处于在读的状态，将延迟进行文件的替换；在文件进行替换时，将在Zookeeper中注册相应数据库表为正在替换的状态，此时SparkSql将对相应数据库表的检索操作做延迟等待处理。

6.根据权利要求1所述的方法，其特征在于，所述的(4)中，小文件合并服务向Http服务发送合并结果，SparkSql将根据待替换列表，移除相应库表中被合并小文件的文件元数据，并且将合并生成的文件所对应的文件元数据放置到SparkSql相应缓存中。