CN109902126A - 支持hive自动分区的加载系统及其实现方法 - Google Patents

支持hive自动分区的加载系统及其实现方法 Download PDF

Info

Publication number
CN109902126A
CN109902126A CN201910119268.XA CN201910119268A CN109902126A CN 109902126 A CN109902126 A CN 109902126A CN 201910119268 A CN201910119268 A CN 201910119268A CN 109902126 A CN109902126 A CN 109902126A
Authority
CN
China
Prior art keywords
data
subregion
hive
loading system
write
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910119268.XA
Other languages
English (en)
Other versions
CN109902126B (zh
Inventor
刘欣然
张鸿
马秉楠
吕雁飞
惠榛
孟宪文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201910119268.XA priority Critical patent/CN109902126B/zh
Publication of CN109902126A publication Critical patent/CN109902126A/zh
Application granted granted Critical
Publication of CN109902126B publication Critical patent/CN109902126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种支持HIVE自动分区的加载系统及其实现方法,所述方法包括:数据源模块,用于接收数据,对数据进行预备分类,按照数据的来源和数据头上所携带的配置信息进行预处理,得到数据所需要写入的对应的HIVE表,将映射关系放入到数据头中,并将数据放入到数据通道;数据通道,用于作为所述数据源模块和所述输出接口模块之间的数据通道;输出接口模块,用于从数据通道中获取数据,对数据反序列化,进行进一步的校验,依据加载系统在HIVE中所获取的分区设置计算出分区,将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值,依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。

Description

支持HIVE自动分区的加载系统及其实现方法
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种支持HIVE自动分区的加载系统及其实现方法。
背景技术
随着计算机技术的不断发展和信息化程度的不断提高,互联网快速发展,网络信息呈指数级增长,面向海量数据存储及应用也随之蓬勃发展。在大数据处理领域中,ApacheHive作为建立在Hadoop上的开源数据仓库框架有着较为广泛的使用。hive提供类SQL语言HQL,可以方便的读取、写入和管理Hadoop中的海量数据集,越来越多的数据存储系统以hive作为数据元数据管理仓库和数据处理分析工具。随着使用的深入,单纯依靠hive的一些原生功能,逐渐不再能满足对于大量数据快速便捷的需求。
发明内容
本发明实施例提供一种支持HIVE自动分区的加载系统及其实现方法,用以解决现有技术中的上述问题。
本发明实施例提供一种支持HIVE自动分区的加载系统,包括:
数据源模块,用于接收数据,对数据进行预备分类,按照数据的来源和数据头上所携带的配置信息进行预处理,得到数据所需要写入的对应的HIVE表,将映射关系放入到数据头中,并将数据放入到数据通道;
数据通道,用于作为所述数据源模块和所述输出接口模块之间的数据通道;
输出接口模块,用于从数据通道中获取数据,对数据反序列化,进行进一步的校验,依据加载系统在HIVE中所获取的分区设置计算出分区,将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值,依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。
优选地,分区计算的类型具体包括:等值分区、hash分区、时间间隔分区、以及转换时间分区。
优选地,所述数据源模块具体用于:通过从kafka中拉取数据或者http server服务接受数据的方式进行数据的接收。
优选地,所述系统进一步包括:
创建模块,用于创建HIVE表,在建表语句中指定hive表所需要的分区类型,需要计算的原字段,并将上述信息设置在HIVE表的tblpropertie中,将schema注册在shcemaregistry服务中,其中,shcema是数据加载过程中数据的描述标准,需要数据的结构和类型信息描述为schema,在加载系统从kafka或者其他方式中获取到数据后,获取到对应的schema,依此对数据进行反序列化处理,得到所需要的数据;
优选地,所述创建模块具体用于:
在创建HIVE表的时,通过partitioned by设定表的分区字段,在tblproperties中通过’_partition.a’=’function(b,paramer)’属性指定计算出该分区字段所需要的原始数据列,分区的类型、方法,其中,所述表属性中还配置有多个分区方法以支持HIVE的多级分区。
优选地,所述数据源模块具体用于:
加载系统在启动后,在初始化过程中与HIVEmetastore交互获取到对应HIVE表的相应元数据,然后提取加载系统写入数据所需要的各种参数配置和表属性,其中包括HIVE表的分区相关信息;在系统的元数据管理模块中将HIVE表与分区的映射关系进行缓存。
优选地,所述输出接口模块具体用于:
在数据流由数据源模块经过数据通道进入输出接口模块后,判断HIVE表是否需要计算的分区,如果需要则按照对应的方法对HIVE表所有的分区依次进行计算,直至得到最终的分区结果;并通过与HIVEmetastore的交互判断此分区是否已经在HIVE表中存在,如果不存在则需要在HIVE表中添加此分区,并以此分区作为分类依据,将数据放入到不同的缓存区中;最终依次将缓存中的数据写入的HIVE分区对应的不同的hdfs路径中,完成数据的写入。
本发明实施例还提供一种支持HIVE自动分区的加载系统实现方法,包括:
步骤1,通过数据源模块接收数据,对数据进行预备分类,按照数据的来源和数据头上所携带的配置信息进行预处理,得到数据所需要写入的对应的HIVE表,将映射关系放入到数据头中,并将数据放入到数据通道;
步骤2,通过输出接口模块从数据通道中获取数据,对数据反序列化,进行进一步的校验,依据加载系统在HIVE中所获取的分区设置计算出分区,将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值,依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。
优选地,所述方法进一步包括:
创建HIVE表,在建表语句中指定hive表所需要的分区类型,需要计算的原字段,并将上述信息设置在HIVE表的tblpropertie中,将schema注册在shcema registry服务中,其中,shcema是数据加载过程中数据的描述标准,需要数据的结构和类型信息描述为schema,在加载系统从kafka或者其他方式中获取到数据后,获取到对应的schema,依此对数据进行反序列化处理,得到所需要的数据;
在创建HIVE表的时,通过partitioned by设定表的分区字段,在tblproperties中通过’_partition.a’=’function(b,paramer)’属性指定计算出该分区字段所需要的原始数据列,分区的类型、方法,其中,所述表属性中还配置有多个分区方法以支持HIVE的多级分区。
优选地,步骤1具体包括:加载系统在启动后,在初始化过程中与HIVEmetastore交互获取到对应HIVE表的相应元数据,然后提取加载系统写入数据所需要的各种参数配置和表属性,其中包括HIVE表的分区相关信息;在系统的元数据管理模块中将HIVE表与分区的映射关系进行缓存;
步骤2具体包括:在数据流由数据源模块经过数据通道进入输出接口模块后,判断HIVE表是否需要计算的分区,如果需要则按照对应的方法对HIVE表所有的分区依次进行计算,直至得到最终的分区结果;并通过与HIVEmetastore的交互判断此分区是否已经在HIVE表中存在,如果不存在则需要在HIVE表中添加此分区,并以此分区作为分类依据,将数据放入到不同的缓存区中;最终依次将缓存中的数据写入的HIVE分区对应的不同的hdfs路径中,完成数据的写入。
采用本发明实施例,通过基于Hive的对实时加载的数据进行自动分区存储的实现方法,对实时加载的数据进行自动的分区计算。为数据加载到hive中时的分区计算需求提供有效的解决方案,免去了后期数据处理时人工手动计算的繁琐步骤,也很好的提升了数据检索引擎的检索效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例的系统的整体架构示意图;
图2是本发明实施例的数据处理流程图;
图3是本发明实施例的加载系统框架图。
具体实施方式
本发明实施例提供了一种基于Hive的对实时加载的数据进行自动分区存储的实现方法。本发明实施例实现了对实时加载的数据进行分区计算,支持基于列级别的数据分区,支持等值分区、时间分区、范围分区、哈希分区等分区方式,计算好分区的数据数据可以实时放入相应分区下,可以通过修改Hive的元数据自动添加不存在的分区,自动更新Hive元数据。本发明实施例加载数据入Hive具有分区实时化、自动化、数据落地延迟小等特点。
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明提供了一种基于Hive的对实时加载的数据进行自动分区存储的实现方法。
本发明作为加载系统,实现了由数据的接受、处理、存入到存储介质的功能,并在加载过程中,实现了对数据的分区计算。根据提供的需要计算分区的数据列、计算分区的方法以及分区类型提取出特定的数据列数据内容,计算出分区,并按照此分区,将数据依次放入到hive中。该方法加载数据进入hive,具有效率高,分区实时化,自动化,落地延迟低等特点。为了实现上述功能,本发明实施例大致分为四个部分。
本发明第一部分,对分区方法进行设计。数据的存储以及计算处理都是以hive作为元数据的存储介质,本发明同样以hive中元数据作为数据的加载和分区计算的依据和标准。在创建hive表时,根据数据量大小,业务需求等条件,可以配置多种不同类型的分区方法,支持timestamp、整型、string等数据类型。加载系统在数据加载至hive中的过程中,自动完成分区的计算和数据的入库。为了实现多样的分区计算方式,给出本发明的分区计算的具体类型、分区方法、方法参数。支持的分区方法如下:
表1
分区类型 分区函数 支持字段类型 示例
等值分区 precise String precise(a,10)
hash分区 hash 整型 hash(a,8)
时间间隔分区 interval 整型 interval(a,86400)
转换时间分区 date 整型、timestamp date(a,yyyymmdd)
1.等值分区:按照截取的方式对指定字段进行分区,参数为截取的长度。
2.hash分区:对指定字段取hash值,然后按照给定参数进行取模,以此结果作为数据的分区。
3.时间间隔分区:以给定的时间间隔作为分区,接收的参数为整型数字,表示分区间隔时间对应的秒数。
4.转化时间分区:按照对给定的字段进行转化后的时间作为分区。支持的用于计算分区的字段类型有整型和timestamp。可以按照多种格式对时间字段进行转化,如”yyyy-mm-dd”、”yyyymmdd”、”hh”。
本发明第二部分,给出了加载系统接入、处理、和写入数据的流程框架。加载系统以flume作为运行框架,分为数据源模块(source),数据通道(channel),数据出口模块(sink)三个部分,数据以flume event的封装格式在这三个部分中进行传输。Source作为加载系统的数据源,通过从kafka中拉取数据或者http server服务接受数据等方式进行数据的接受。在source中会对数据进行预备分类,按照数据的来源和数据header上所携带的配置信息进行预处理,得出数据所需要写入的对应的hive表,并将此映射关系放入到数据的header中。随后将数据放入到channel,sink作为数据的输出接口,首先从channel中获取数据,对数据反序列化,进行进一步的校验。随后依据加载系统在hive中所获取的分区设置计算出分区,与数据所对应的数据库名、表名一起作为数据写入hdfs中的key值。依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。
本发明第三部分,给出加载系统所使用的分区计算方法在hive中的配置、获取和使用。在创建hive表的时,通过partitioned by设定表的分区字段,在tblproperties中通过’_partition.a’=’function(b,paramer)’属性指定计算出该分区字段所需要的原始数据列,分区的类型、方法。同时可以在表属性中配置多个分区方法以支持hive的多级分区。加载系统在启动后,在初始化过程中会与hivemetastore交互获取到对应hive表的相应元数据,然后提取加载系统写入数据所需要的各种参数配置和表属性,其中就包括该表的分区相关信息。随后,在系统的元数据管理模块中将表与分区的映射关系进行缓存。在数据流由source经过channel进入sink后,判断此表是否有需要计算的分区,如果有则按照对应的方法对该表所有的分区依次进行计算,直至得到最终的分区结果。通过与hivemetastore的交互判断此分区是否已经在hive表中存在,如果不存在则需要在hive中添加此分区。随后以此分区作为分类依据,将数据放入到不同的缓存区中。
最终依次将缓存中的数据写入的hive分区对应的不同的hdfs路径中,完成数据的写入。
具体实施用例
为了使本发明技术方案的描述更加清楚明白,以下结合附图,对本发明的一个具体实施实例进行说明。
具体步骤如下:
步骤一,带分区的hive表的准备与加载系统搭建。
如附图一所示,该图为本发明的加载系统的框架。
1.首先需要创建hive表,在建表语句中依据本发明自定义的规则指定hive表所需要的分区类型,需要计算的原字段,将这些信息设置在hive表的tblpropertie中。注册schema,shcema是本发明的数据加载过程中数据的描述标准,需要数据的结构和类型信息描述为schema,并注册在shcema registry服务中,在加载系统从kafka或者其他方式中获取到数据后,获取到对应的schema,依此对数据进行反序列化处理,得到所需要的数据。
2.附图1所示为本发明的加载系统搭建所依赖的分布式架构。包括hdfs、
Zookeeper、hive、kafka等分布式系统。Hdfs为系统的文件存储平台,提供了分布式的海量数据存储的能力。Kafka与http server服务均可作为本发明的上游数据来源。
步骤二,数据在本发明的加载系统中的处理流程。
如图二所示,该流程图为数据处理的流程图。附图三描述了加载系统的大致框架结构。依据这两个图对本发明中的加载系统流程进行说明。
1.加载系统的source进行数据的接收,依据kafka topic与hive表的映射关系对数据进行初步的处理,将数据放入到channel中。
2.加载系统的sink端在从channel中获取到数据后,首先从schema registry中获取对应的shcmea,并依据此schema对数据进行反序列化。
在进行校验之后,依据从元数据缓存中获取到的分区信息,计算出分区。从hivemetastore中获取hive表在hdfs中的存储路径,按照分区进行分类,不同分区的数据被放入其所对应的不同的写缓存区中,而每个不同的缓存区对应了不同的hdfs的路径。
3.完成数据的写入。获取到每个分区所持有的文件句柄,如果没有则创建,将缓存区中数据写入到文件中。如果该文件满足了文件关闭所需要的大小、时间等条件,将文件关闭,释放句柄,完成文件的落地。
步骤三,分区计算流程
1.分区计算方式的获取与缓存。在加载系统启动的初始化过程中,会与hivemetastore进行交互,获取hive表的分区计算类型、原数据字段,并将其存储在元数据缓存中。
2.在sink端处理数据时,会在元数据缓存中进行检索,如果数据对应的表含有需要计算的分区,会触发分区计算逻辑,依照在tblproperties中配置的不同的分区函数,计算出分区。
3.在计算出分区后,会判断该hive表中是否已经含有对应的分区,如果没有,需要与hivemetasotre通信,在hive表中添加相应分区。
综上所述,本发明实施例提供了一种支持hive自动分区的加载系统的实现方式,实现了数据加载过程自动计算分区,有自动化、实时化、文件落地延迟小等特点。同时本发明支持hash分区、时间转化分区等多种分区计算方式,能够更大限度的满足多样性的业务需求,有效的提升了检索效率,在大数据处理领域有着广泛的应用前景。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种支持HIVE自动分区的加载系统,其特征在于,包括:
数据源模块,用于接收数据,对数据进行预备分类,按照数据的来源和数据头上所携带的配置信息进行预处理,得到数据所需要写入的对应的HIVE表,将映射关系放入到数据头中,并将数据放入到数据通道;
数据通道,用于作为所述数据源模块和所述输出接口模块之间的数据通道;
输出接口模块,用于从数据通道中获取数据,对数据反序列化,进行进一步的校验,依据加载系统在HIVE中所获取的分区设置计算出分区,将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值,依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。
2.如权利要求1所述的系统,其特征在于,分区计算的类型具体包括:等值分区、hash分区、时间间隔分区、以及转换时间分区。
3.如权利要求1所述的系统,其特征在于,所述数据源模块具体用于:通过从kafka中拉取数据或者http server服务接受数据的方式进行数据的接收。
4.如权利要求1所述的系统,其特征在于,所述系统进一步包括:
创建模块,用于创建HIVE表,在建表语句中指定hive表所需要的分区类型,需要计算的原字段,并将上述信息设置在HIVE表的tblpropertie中,将schema注册在shcema registry服务中,其中,shcema是数据加载过程中数据的描述标准,需要数据的结构和类型信息描述为schema,在加载系统从kafka或者其他方式中获取到数据后,获取到对应的schema,依此对数据进行反序列化处理,得到所需要的数据。
5.如权利要求4所述的系统,其特征在于,所述创建模块具体用于:
在创建HIVE表的时,通过partitioned by设定表的分区字段,在tblproperties中通过’_partition.a’=’function(b,paramer)’属性指定计算出该分区字段所需要的原始数据列,分区的类型、方法,其中,所述表属性中还配置有多个分区方法以支持HIVE的多级分区。
6.如权利要求5所述的系统,其特征在于,所述数据源模块具体用于:
加载系统在启动后,在初始化过程中与HIVEmetastore交互获取到对应HIVE表的相应元数据,然后提取加载系统写入数据所需要的各种参数配置和表属性,其中包括HIVE表的分区相关信息;在系统的元数据管理模块中将HIVE表与分区的映射关系进行缓存。
7.如权利要求6所述的系统,其特征在于,所述输出接口模块具体用于:
在数据流由数据源模块经过数据通道进入输出接口模块后,判断HIVE表是否需要计算的分区,如果需要则按照对应的方法对HIVE表所有的分区依次进行计算,直至得到最终的分区结果;并通过与HIVEmetastore的交互判断此分区是否已经在HIVE表中存在,如果不存在则需要在HIVE表中添加此分区,并以此分区作为分类依据,将数据放入到不同的缓存区中;最终依次将缓存中的数据写入的HIVE分区对应的不同的hdfs路径中,完成数据的写入。
8.一种支持HIVE自动分区的加载系统实现方法,其特征在于,包括:
步骤1,通过数据源模块接收数据,对数据进行预备分类,按照数据的来源和数据头上所携带的配置信息进行预处理,得到数据所需要写入的对应的HIVE表,将映射关系放入到数据头中,并将数据放入到数据通道;
步骤2,通过输出接口模块从数据通道中获取数据,对数据反序列化,进行进一步的校验,依据加载系统在HIVE中所获取的分区设置计算出分区,将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值,依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。
9.如权利要求8所述的方法,其特征在于,所述方法进一步包括:
创建HIVE表,在建表语句中指定hive表所需要的分区类型,需要计算的原字段,并将上述信息设置在HIVE表的tblpropertie中,将schema注册在shcema registry服务中,其中,shcema是数据加载过程中数据的描述标准,需要数据的结构和类型信息描述为schema,在加载系统从kafka或者其他方式中获取到数据后,获取到对应的schema,依此对数据进行反序列化处理,得到所需要的数据;
在创建HIVE表的时,通过partitioned by设定表的分区字段,在tblproperties中通过’_partition.a’=’function(b,paramer)’属性指定计算出该分区字段所需要的原始数据列,分区的类型、方法,其中,所述表属性中还配置有多个分区方法以支持HIVE的多级分区。
10.如权利要求8所述的方法,其特征在于,
步骤1具体包括:加载系统在启动后,在初始化过程中与HIVEmetastore交互获取到对应HIVE表的相应元数据,然后提取加载系统写入数据所需要的各种参数配置和表属性,其中包括HIVE表的分区相关信息;在系统的元数据管理模块中将HIVE表与分区的映射关系进行缓存;
步骤2具体包括:在数据流由数据源模块经过数据通道进入输出接口模块后,判断HIVE表是否需要计算的分区,如果需要则按照对应的方法对HIVE表所有的分区依次进行计算,直至得到最终的分区结果;并通过与HIVEmetastore的交互判断此分区是否已经在HIVE表中存在,如果不存在则需要在HIVE表中添加此分区,并以此分区作为分类依据,将数据放入到不同的缓存区中;最终依次将缓存中的数据写入的HIVE分区对应的不同的hdfs路径中,完成数据的写入。
CN201910119268.XA 2019-02-18 2019-02-18 支持hive自动分区的加载系统及其实现方法 Active CN109902126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910119268.XA CN109902126B (zh) 2019-02-18 2019-02-18 支持hive自动分区的加载系统及其实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910119268.XA CN109902126B (zh) 2019-02-18 2019-02-18 支持hive自动分区的加载系统及其实现方法

Publications (2)

Publication Number Publication Date
CN109902126A true CN109902126A (zh) 2019-06-18
CN109902126B CN109902126B (zh) 2021-12-07

Family

ID=66944921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910119268.XA Active CN109902126B (zh) 2019-02-18 2019-02-18 支持hive自动分区的加载系统及其实现方法

Country Status (1)

Country Link
CN (1) CN109902126B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177271A (zh) * 2019-12-31 2020-05-19 奇安信科技集团股份有限公司 kafka数据持久化到hdfs的数据存储方法、装置、计算机设备
CN111858616A (zh) * 2020-08-06 2020-10-30 中国银行股份有限公司 流式数据存储方法及装置
CN111984659A (zh) * 2020-07-28 2020-11-24 招联消费金融有限公司 数据更新方法、装置、计算机设备和存储介质
CN112100147A (zh) * 2020-07-27 2020-12-18 杭州玳数科技有限公司 基于Flink实现Binlog到HIVE的实时采集方法和系统
CN112347097A (zh) * 2020-09-23 2021-02-09 中国科学院信息工程研究所 支持多版本Hive表分区的数据加载、查询方法及电子装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486798A (zh) * 2010-12-03 2012-06-06 腾讯科技(深圳)有限公司 数据加载的方法及装置
CN103902544A (zh) * 2012-12-25 2014-07-02 中国移动通信集团公司 一种数据处理方法及系统
CN104090889A (zh) * 2013-12-12 2014-10-08 深圳市腾讯计算机系统有限公司 数据处理方法及系统
CN105022763A (zh) * 2014-04-30 2015-11-04 博雅网络游戏开发(深圳)有限公司 实现数据查询的方法和系统
CN105512200A (zh) * 2015-11-26 2016-04-20 华为技术有限公司 一种分布式数据库处理的方法和设备
CN105608203A (zh) * 2015-12-24 2016-05-25 Tcl集团股份有限公司 一种基于Hadoop平台的物联网日志处理方法和装置
US9460147B1 (en) * 2015-06-12 2016-10-04 International Business Machines Corporation Partition-based index management in hadoop-like data stores
US9582541B2 (en) * 2013-02-01 2017-02-28 Netapp, Inc. Systems, methods, and computer program products to ingest, process, and output large data
CN107067322A (zh) * 2017-05-27 2017-08-18 国家计算机网络与信息安全管理中心 一种应用于p2p网络借贷企业数据接入模型的系统及方法
CN107818167A (zh) * 2017-11-08 2018-03-20 顺丰科技有限公司 MySQL分区自动管理方法、系统、设备、存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486798A (zh) * 2010-12-03 2012-06-06 腾讯科技(深圳)有限公司 数据加载的方法及装置
CN103902544A (zh) * 2012-12-25 2014-07-02 中国移动通信集团公司 一种数据处理方法及系统
US9582541B2 (en) * 2013-02-01 2017-02-28 Netapp, Inc. Systems, methods, and computer program products to ingest, process, and output large data
CN104090889A (zh) * 2013-12-12 2014-10-08 深圳市腾讯计算机系统有限公司 数据处理方法及系统
CN105022763A (zh) * 2014-04-30 2015-11-04 博雅网络游戏开发(深圳)有限公司 实现数据查询的方法和系统
US9460147B1 (en) * 2015-06-12 2016-10-04 International Business Machines Corporation Partition-based index management in hadoop-like data stores
CN105512200A (zh) * 2015-11-26 2016-04-20 华为技术有限公司 一种分布式数据库处理的方法和设备
CN105608203A (zh) * 2015-12-24 2016-05-25 Tcl集团股份有限公司 一种基于Hadoop平台的物联网日志处理方法和装置
CN107067322A (zh) * 2017-05-27 2017-08-18 国家计算机网络与信息安全管理中心 一种应用于p2p网络借贷企业数据接入模型的系统及方法
CN107818167A (zh) * 2017-11-08 2018-03-20 顺丰科技有限公司 MySQL分区自动管理方法、系统、设备、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
秀才坤坤: "Flume + HDFS + Hive日志收集系统", 《HTTPS://WWW.CNBLOGS.COM/XCKK/P/6125838.HTML?UTM_SOURCE=DEBUGRUN&UTM_MEDIUM=REFERRAL》 *
魏迪: "基于hadoop的海量业务数据分析平台的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177271A (zh) * 2019-12-31 2020-05-19 奇安信科技集团股份有限公司 kafka数据持久化到hdfs的数据存储方法、装置、计算机设备
CN111177271B (zh) * 2019-12-31 2023-11-10 奇安信科技集团股份有限公司 kafka数据持久化到hdfs的数据存储方法、装置、计算机设备
CN112100147A (zh) * 2020-07-27 2020-12-18 杭州玳数科技有限公司 基于Flink实现Binlog到HIVE的实时采集方法和系统
CN112100147B (zh) * 2020-07-27 2024-06-07 杭州玳数科技有限公司 基于Flink实现Binlog到HIVE的实时采集方法和系统
CN111984659A (zh) * 2020-07-28 2020-11-24 招联消费金融有限公司 数据更新方法、装置、计算机设备和存储介质
CN111858616A (zh) * 2020-08-06 2020-10-30 中国银行股份有限公司 流式数据存储方法及装置
CN112347097A (zh) * 2020-09-23 2021-02-09 中国科学院信息工程研究所 支持多版本Hive表分区的数据加载、查询方法及电子装置
CN112347097B (zh) * 2020-09-23 2022-07-29 中国科学院信息工程研究所 支持多版本Hive表分区的数据加载、查询方法及电子装置

Also Published As

Publication number Publication date
CN109902126B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN109902126A (zh) 支持hive自动分区的加载系统及其实现方法
Holzschuher et al. Performance of graph query languages: comparison of cypher, gremlin and native access in neo4j
CN105653559B (zh) 用于在数据库中进行搜索的方法和装置
US10339038B1 (en) Method and system for generating production data pattern driven test data
US10698924B2 (en) Generating partitioned hierarchical groups based on data sets for business intelligence data models
US10762072B2 (en) Processing messages of a plurality of devices
EP3502928A1 (en) Intelligent natural language query processor
CN110032575A (zh) 数据查询方法、装置、设备和存储介质
CN106547766A (zh) 一种数据访问方法和装置
CN110140121A (zh) 聚合查询的数据库系统和处理
CN106599164A (zh) 复杂事件处理中对于参数化的查询/视图的支持
CN109582722A (zh) 公安资源数据服务系统
US8250052B2 (en) Geospatial data interaction
CN110088749A (zh) 自动本体生成
CN106682097A (zh) 一种处理日志数据的方法和装置
CN109656963A (zh) 元数据获取方法、装置、设备及计算机可读存储介质
CN104050213B (zh) 包括数据分类的查询处理系统
CN110119473A (zh) 一种目标文件知识图谱的构建方法及装置
CN110447025A (zh) 在物联网中启用语义混搭
CN105843867B (zh) 基于元数据模型的检索方法和基于元数据模型的检索装置
US20190361999A1 (en) Data analysis over the combination of relational and big data
CN107506383A (zh) 一种审计数据处理方法和计算机设备
CN109271428A (zh) 数据抽取方法及基于地理信息的数据展示方法
CN110414259A (zh) 一种构建数据类目、实现数据共享的方法及设备
CN112513836A (zh) 结构化记录检索

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant