CN109902126A

CN109902126A - 支持hive自动分区的加载系统及其实现方法

Info

Publication number: CN109902126A
Application number: CN201910119268.XA
Authority: CN
Inventors: 刘欣然; 张鸿; 马秉楠; 吕雁飞; 惠榛; 孟宪文
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2019-06-18
Anticipated expiration: 2039-02-18
Also published as: CN109902126B

Abstract

本发明公开了一种支持HIVE自动分区的加载系统及其实现方法，所述方法包括：数据源模块，用于接收数据，对数据进行预备分类，按照数据的来源和数据头上所携带的配置信息进行预处理，得到数据所需要写入的对应的HIVE表，将映射关系放入到数据头中，并将数据放入到数据通道；数据通道，用于作为所述数据源模块和所述输出接口模块之间的数据通道；输出接口模块，用于从数据通道中获取数据，对数据反序列化，进行进一步的校验，依据加载系统在HIVE中所获取的分区设置计算出分区，将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值，依据该key值，从文件写入管理模块中获取对应的文件句柄，将数据写入至hdfs或者其他存储介质中。

Description

支持HIVE自动分区的加载系统及其实现方法

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种支持HIVE自动分区的加载系统及其实现方法。

背景技术

随着计算机技术的不断发展和信息化程度的不断提高，互联网快速发展，网络信息呈指数级增长，面向海量数据存储及应用也随之蓬勃发展。在大数据处理领域中，ApacheHive作为建立在Hadoop上的开源数据仓库框架有着较为广泛的使用。hive提供类SQL语言HQL，可以方便的读取、写入和管理Hadoop中的海量数据集，越来越多的数据存储系统以hive作为数据元数据管理仓库和数据处理分析工具。随着使用的深入，单纯依靠hive的一些原生功能，逐渐不再能满足对于大量数据快速便捷的需求。

发明内容

本发明实施例提供一种支持HIVE自动分区的加载系统及其实现方法，用以解决现有技术中的上述问题。

本发明实施例提供一种支持HIVE自动分区的加载系统，包括：

数据源模块，用于接收数据，对数据进行预备分类，按照数据的来源和数据头上所携带的配置信息进行预处理，得到数据所需要写入的对应的HIVE表，将映射关系放入到数据头中，并将数据放入到数据通道；

数据通道，用于作为所述数据源模块和所述输出接口模块之间的数据通道；

输出接口模块，用于从数据通道中获取数据，对数据反序列化，进行进一步的校验，依据加载系统在HIVE中所获取的分区设置计算出分区，将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值，依据该key值，从文件写入管理模块中获取对应的文件句柄，将数据写入至hdfs或者其他存储介质中。

优选地，分区计算的类型具体包括：等值分区、hash分区、时间间隔分区、以及转换时间分区。

优选地，所述数据源模块具体用于：通过从kafka中拉取数据或者http server服务接受数据的方式进行数据的接收。

优选地，所述系统进一步包括：

创建模块，用于创建HIVE表，在建表语句中指定hive表所需要的分区类型，需要计算的原字段，并将上述信息设置在HIVE表的tblpropertie中，将schema注册在shcemaregistry服务中，其中，shcema是数据加载过程中数据的描述标准，需要数据的结构和类型信息描述为schema，在加载系统从kafka或者其他方式中获取到数据后，获取到对应的schema，依此对数据进行反序列化处理，得到所需要的数据；

优选地，所述创建模块具体用于：

在创建HIVE表的时，通过partitioned by设定表的分区字段，在tblproperties中通过’_partition.a’＝’function(b,paramer)’属性指定计算出该分区字段所需要的原始数据列，分区的类型、方法，其中，所述表属性中还配置有多个分区方法以支持HIVE的多级分区。

优选地，所述数据源模块具体用于：

加载系统在启动后，在初始化过程中与HIVEmetastore交互获取到对应HIVE表的相应元数据，然后提取加载系统写入数据所需要的各种参数配置和表属性，其中包括HIVE表的分区相关信息；在系统的元数据管理模块中将HIVE表与分区的映射关系进行缓存。

优选地，所述输出接口模块具体用于：

在数据流由数据源模块经过数据通道进入输出接口模块后，判断HIVE表是否需要计算的分区，如果需要则按照对应的方法对HIVE表所有的分区依次进行计算，直至得到最终的分区结果；并通过与HIVEmetastore的交互判断此分区是否已经在HIVE表中存在，如果不存在则需要在HIVE表中添加此分区，并以此分区作为分类依据，将数据放入到不同的缓存区中；最终依次将缓存中的数据写入的HIVE分区对应的不同的hdfs路径中，完成数据的写入。

本发明实施例还提供一种支持HIVE自动分区的加载系统实现方法，包括：

步骤1，通过数据源模块接收数据，对数据进行预备分类，按照数据的来源和数据头上所携带的配置信息进行预处理，得到数据所需要写入的对应的HIVE表，将映射关系放入到数据头中，并将数据放入到数据通道；

步骤2，通过输出接口模块从数据通道中获取数据，对数据反序列化，进行进一步的校验，依据加载系统在HIVE中所获取的分区设置计算出分区，将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值，依据该key值，从文件写入管理模块中获取对应的文件句柄，将数据写入至hdfs或者其他存储介质中。

优选地，所述方法进一步包括：

创建HIVE表，在建表语句中指定hive表所需要的分区类型，需要计算的原字段，并将上述信息设置在HIVE表的tblpropertie中，将schema注册在shcema registry服务中，其中，shcema是数据加载过程中数据的描述标准，需要数据的结构和类型信息描述为schema，在加载系统从kafka或者其他方式中获取到数据后，获取到对应的schema，依此对数据进行反序列化处理，得到所需要的数据；

优选地，步骤1具体包括：加载系统在启动后，在初始化过程中与HIVEmetastore交互获取到对应HIVE表的相应元数据，然后提取加载系统写入数据所需要的各种参数配置和表属性，其中包括HIVE表的分区相关信息；在系统的元数据管理模块中将HIVE表与分区的映射关系进行缓存；

步骤2具体包括：在数据流由数据源模块经过数据通道进入输出接口模块后，判断HIVE表是否需要计算的分区，如果需要则按照对应的方法对HIVE表所有的分区依次进行计算，直至得到最终的分区结果；并通过与HIVEmetastore的交互判断此分区是否已经在HIVE表中存在，如果不存在则需要在HIVE表中添加此分区，并以此分区作为分类依据，将数据放入到不同的缓存区中；最终依次将缓存中的数据写入的HIVE分区对应的不同的hdfs路径中，完成数据的写入。

采用本发明实施例，通过基于Hive的对实时加载的数据进行自动分区存储的实现方法，对实时加载的数据进行自动的分区计算。为数据加载到hive中时的分区计算需求提供有效的解决方案，免去了后期数据处理时人工手动计算的繁琐步骤，也很好的提升了数据检索引擎的检索效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例的系统的整体架构示意图；

图2是本发明实施例的数据处理流程图；

图3是本发明实施例的加载系统框架图。

具体实施方式

本发明实施例提供了一种基于Hive的对实时加载的数据进行自动分区存储的实现方法。本发明实施例实现了对实时加载的数据进行分区计算，支持基于列级别的数据分区，支持等值分区、时间分区、范围分区、哈希分区等分区方式，计算好分区的数据数据可以实时放入相应分区下，可以通过修改Hive的元数据自动添加不存在的分区，自动更新Hive元数据。本发明实施例加载数据入Hive具有分区实时化、自动化、数据落地延迟小等特点。

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明提供了一种基于Hive的对实时加载的数据进行自动分区存储的实现方法。

本发明作为加载系统，实现了由数据的接受、处理、存入到存储介质的功能，并在加载过程中，实现了对数据的分区计算。根据提供的需要计算分区的数据列、计算分区的方法以及分区类型提取出特定的数据列数据内容，计算出分区，并按照此分区，将数据依次放入到hive中。该方法加载数据进入hive，具有效率高，分区实时化，自动化，落地延迟低等特点。为了实现上述功能，本发明实施例大致分为四个部分。

本发明第一部分，对分区方法进行设计。数据的存储以及计算处理都是以hive作为元数据的存储介质，本发明同样以hive中元数据作为数据的加载和分区计算的依据和标准。在创建hive表时，根据数据量大小，业务需求等条件，可以配置多种不同类型的分区方法，支持timestamp、整型、string等数据类型。加载系统在数据加载至hive中的过程中，自动完成分区的计算和数据的入库。为了实现多样的分区计算方式，给出本发明的分区计算的具体类型、分区方法、方法参数。支持的分区方法如下：

表1

分区类型	分区函数	支持字段类型	示例
				等值分区	precise	String	precise(a,10)
hash分区	hash	整型	hash(a,8)
				时间间隔分区	interval	整型	interval(a,86400)
转换时间分区	date	整型、timestamp	date(a,yyyymmdd)

1.等值分区：按照截取的方式对指定字段进行分区，参数为截取的长度。

2.hash分区：对指定字段取hash值，然后按照给定参数进行取模，以此结果作为数据的分区。

3.时间间隔分区：以给定的时间间隔作为分区，接收的参数为整型数字，表示分区间隔时间对应的秒数。

4.转化时间分区：按照对给定的字段进行转化后的时间作为分区。支持的用于计算分区的字段类型有整型和timestamp。可以按照多种格式对时间字段进行转化，如”yyyy-mm-dd”、”yyyymmdd”、”hh”。

本发明第二部分，给出了加载系统接入、处理、和写入数据的流程框架。加载系统以flume作为运行框架，分为数据源模块(source)，数据通道(channel)，数据出口模块(sink)三个部分，数据以flume event的封装格式在这三个部分中进行传输。Source作为加载系统的数据源，通过从kafka中拉取数据或者http server服务接受数据等方式进行数据的接受。在source中会对数据进行预备分类，按照数据的来源和数据header上所携带的配置信息进行预处理，得出数据所需要写入的对应的hive表，并将此映射关系放入到数据的header中。随后将数据放入到channel，sink作为数据的输出接口，首先从channel中获取数据，对数据反序列化，进行进一步的校验。随后依据加载系统在hive中所获取的分区设置计算出分区，与数据所对应的数据库名、表名一起作为数据写入hdfs中的key值。依据该key值，从文件写入管理模块中获取对应的文件句柄，将数据写入至hdfs或者其他存储介质中。

本发明第三部分，给出加载系统所使用的分区计算方法在hive中的配置、获取和使用。在创建hive表的时，通过partitioned by设定表的分区字段，在tblproperties中通过’_partition.a’＝’function(b,paramer)’属性指定计算出该分区字段所需要的原始数据列，分区的类型、方法。同时可以在表属性中配置多个分区方法以支持hive的多级分区。加载系统在启动后，在初始化过程中会与hivemetastore交互获取到对应hive表的相应元数据，然后提取加载系统写入数据所需要的各种参数配置和表属性，其中就包括该表的分区相关信息。随后，在系统的元数据管理模块中将表与分区的映射关系进行缓存。在数据流由source经过channel进入sink后，判断此表是否有需要计算的分区，如果有则按照对应的方法对该表所有的分区依次进行计算，直至得到最终的分区结果。通过与hivemetastore的交互判断此分区是否已经在hive表中存在，如果不存在则需要在hive中添加此分区。随后以此分区作为分类依据，将数据放入到不同的缓存区中。

最终依次将缓存中的数据写入的hive分区对应的不同的hdfs路径中，完成数据的写入。

具体实施用例

为了使本发明技术方案的描述更加清楚明白，以下结合附图，对本发明的一个具体实施实例进行说明。

具体步骤如下：

步骤一，带分区的hive表的准备与加载系统搭建。

如附图一所示，该图为本发明的加载系统的框架。

1.首先需要创建hive表，在建表语句中依据本发明自定义的规则指定hive表所需要的分区类型，需要计算的原字段，将这些信息设置在hive表的tblpropertie中。注册schema，shcema是本发明的数据加载过程中数据的描述标准，需要数据的结构和类型信息描述为schema，并注册在shcema registry服务中，在加载系统从kafka或者其他方式中获取到数据后，获取到对应的schema，依此对数据进行反序列化处理，得到所需要的数据。

2.附图1所示为本发明的加载系统搭建所依赖的分布式架构。包括hdfs、

Zookeeper、hive、kafka等分布式系统。Hdfs为系统的文件存储平台，提供了分布式的海量数据存储的能力。Kafka与http server服务均可作为本发明的上游数据来源。

步骤二，数据在本发明的加载系统中的处理流程。

如图二所示，该流程图为数据处理的流程图。附图三描述了加载系统的大致框架结构。依据这两个图对本发明中的加载系统流程进行说明。

1.加载系统的source进行数据的接收，依据kafka topic与hive表的映射关系对数据进行初步的处理，将数据放入到channel中。

2.加载系统的sink端在从channel中获取到数据后，首先从schema registry中获取对应的shcmea，并依据此schema对数据进行反序列化。

在进行校验之后，依据从元数据缓存中获取到的分区信息，计算出分区。从hivemetastore中获取hive表在hdfs中的存储路径，按照分区进行分类，不同分区的数据被放入其所对应的不同的写缓存区中，而每个不同的缓存区对应了不同的hdfs的路径。

3.完成数据的写入。获取到每个分区所持有的文件句柄，如果没有则创建，将缓存区中数据写入到文件中。如果该文件满足了文件关闭所需要的大小、时间等条件，将文件关闭，释放句柄，完成文件的落地。

步骤三，分区计算流程

1.分区计算方式的获取与缓存。在加载系统启动的初始化过程中，会与hivemetastore进行交互，获取hive表的分区计算类型、原数据字段，并将其存储在元数据缓存中。

2.在sink端处理数据时，会在元数据缓存中进行检索，如果数据对应的表含有需要计算的分区，会触发分区计算逻辑，依照在tblproperties中配置的不同的分区函数，计算出分区。

3.在计算出分区后，会判断该hive表中是否已经含有对应的分区，如果没有，需要与hivemetasotre通信，在hive表中添加相应分区。

综上所述，本发明实施例提供了一种支持hive自动分区的加载系统的实现方式，实现了数据加载过程自动计算分区，有自动化、实时化、文件落地延迟小等特点。同时本发明支持hash分区、时间转化分区等多种分区计算方式，能够更大限度的满足多样性的业务需求，有效的提升了检索效率，在大数据处理领域有着广泛的应用前景。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种支持HIVE自动分区的加载系统，其特征在于，包括：

2.如权利要求1所述的系统，其特征在于，分区计算的类型具体包括：等值分区、hash分区、时间间隔分区、以及转换时间分区。

3.如权利要求1所述的系统，其特征在于，所述数据源模块具体用于：通过从kafka中拉取数据或者http server服务接受数据的方式进行数据的接收。

4.如权利要求1所述的系统，其特征在于，所述系统进一步包括：

创建模块，用于创建HIVE表，在建表语句中指定hive表所需要的分区类型，需要计算的原字段，并将上述信息设置在HIVE表的tblpropertie中，将schema注册在shcema registry服务中，其中，shcema是数据加载过程中数据的描述标准，需要数据的结构和类型信息描述为schema，在加载系统从kafka或者其他方式中获取到数据后，获取到对应的schema，依此对数据进行反序列化处理，得到所需要的数据。

5.如权利要求4所述的系统，其特征在于，所述创建模块具体用于：

6.如权利要求5所述的系统，其特征在于，所述数据源模块具体用于：

7.如权利要求6所述的系统，其特征在于，所述输出接口模块具体用于：

8.一种支持HIVE自动分区的加载系统实现方法，其特征在于，包括：

9.如权利要求8所述的方法，其特征在于，所述方法进一步包括：

10.如权利要求8所述的方法，其特征在于，

步骤1具体包括：加载系统在启动后，在初始化过程中与HIVEmetastore交互获取到对应HIVE表的相应元数据，然后提取加载系统写入数据所需要的各种参数配置和表属性，其中包括HIVE表的分区相关信息；在系统的元数据管理模块中将HIVE表与分区的映射关系进行缓存；