CN109902126A - 支持hive自动分区的加载系统及其实现方法 - Google Patents
支持hive自动分区的加载系统及其实现方法 Download PDFInfo
- Publication number
- CN109902126A CN109902126A CN201910119268.XA CN201910119268A CN109902126A CN 109902126 A CN109902126 A CN 109902126A CN 201910119268 A CN201910119268 A CN 201910119268A CN 109902126 A CN109902126 A CN 109902126A
- Authority
- CN
- China
- Prior art keywords
- data
- subregion
- hive
- loading system
- write
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种支持HIVE自动分区的加载系统及其实现方法,所述方法包括:数据源模块,用于接收数据,对数据进行预备分类,按照数据的来源和数据头上所携带的配置信息进行预处理,得到数据所需要写入的对应的HIVE表,将映射关系放入到数据头中,并将数据放入到数据通道;数据通道,用于作为所述数据源模块和所述输出接口模块之间的数据通道;输出接口模块,用于从数据通道中获取数据,对数据反序列化,进行进一步的校验,依据加载系统在HIVE中所获取的分区设置计算出分区,将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值,依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。
Description
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种支持HIVE自动分区的加载系统及其实现方法。
背景技术
随着计算机技术的不断发展和信息化程度的不断提高,互联网快速发展,网络信息呈指数级增长,面向海量数据存储及应用也随之蓬勃发展。在大数据处理领域中,ApacheHive作为建立在Hadoop上的开源数据仓库框架有着较为广泛的使用。hive提供类SQL语言HQL,可以方便的读取、写入和管理Hadoop中的海量数据集,越来越多的数据存储系统以hive作为数据元数据管理仓库和数据处理分析工具。随着使用的深入,单纯依靠hive的一些原生功能,逐渐不再能满足对于大量数据快速便捷的需求。
发明内容
本发明实施例提供一种支持HIVE自动分区的加载系统及其实现方法,用以解决现有技术中的上述问题。
本发明实施例提供一种支持HIVE自动分区的加载系统,包括:
数据源模块,用于接收数据,对数据进行预备分类,按照数据的来源和数据头上所携带的配置信息进行预处理,得到数据所需要写入的对应的HIVE表,将映射关系放入到数据头中,并将数据放入到数据通道;
数据通道,用于作为所述数据源模块和所述输出接口模块之间的数据通道;
输出接口模块,用于从数据通道中获取数据,对数据反序列化,进行进一步的校验,依据加载系统在HIVE中所获取的分区设置计算出分区,将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值,依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。
优选地,分区计算的类型具体包括:等值分区、hash分区、时间间隔分区、以及转换时间分区。
优选地,所述数据源模块具体用于:通过从kafka中拉取数据或者http server服务接受数据的方式进行数据的接收。
优选地,所述系统进一步包括:
创建模块,用于创建HIVE表,在建表语句中指定hive表所需要的分区类型,需要计算的原字段,并将上述信息设置在HIVE表的tblpropertie中,将schema注册在shcemaregistry服务中,其中,shcema是数据加载过程中数据的描述标准,需要数据的结构和类型信息描述为schema,在加载系统从kafka或者其他方式中获取到数据后,获取到对应的schema,依此对数据进行反序列化处理,得到所需要的数据;
优选地,所述创建模块具体用于:
在创建HIVE表的时,通过partitioned by设定表的分区字段,在tblproperties中通过’_partition.a’=’function(b,paramer)’属性指定计算出该分区字段所需要的原始数据列,分区的类型、方法,其中,所述表属性中还配置有多个分区方法以支持HIVE的多级分区。
优选地,所述数据源模块具体用于:
加载系统在启动后,在初始化过程中与HIVEmetastore交互获取到对应HIVE表的相应元数据,然后提取加载系统写入数据所需要的各种参数配置和表属性,其中包括HIVE表的分区相关信息;在系统的元数据管理模块中将HIVE表与分区的映射关系进行缓存。
优选地,所述输出接口模块具体用于:
在数据流由数据源模块经过数据通道进入输出接口模块后,判断HIVE表是否需要计算的分区,如果需要则按照对应的方法对HIVE表所有的分区依次进行计算,直至得到最终的分区结果;并通过与HIVEmetastore的交互判断此分区是否已经在HIVE表中存在,如果不存在则需要在HIVE表中添加此分区,并以此分区作为分类依据,将数据放入到不同的缓存区中;最终依次将缓存中的数据写入的HIVE分区对应的不同的hdfs路径中,完成数据的写入。
本发明实施例还提供一种支持HIVE自动分区的加载系统实现方法,包括:
步骤1,通过数据源模块接收数据,对数据进行预备分类,按照数据的来源和数据头上所携带的配置信息进行预处理,得到数据所需要写入的对应的HIVE表,将映射关系放入到数据头中,并将数据放入到数据通道;
步骤2,通过输出接口模块从数据通道中获取数据,对数据反序列化,进行进一步的校验,依据加载系统在HIVE中所获取的分区设置计算出分区,将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值,依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。
优选地,所述方法进一步包括:
创建HIVE表,在建表语句中指定hive表所需要的分区类型,需要计算的原字段,并将上述信息设置在HIVE表的tblpropertie中,将schema注册在shcema registry服务中,其中,shcema是数据加载过程中数据的描述标准,需要数据的结构和类型信息描述为schema,在加载系统从kafka或者其他方式中获取到数据后,获取到对应的schema,依此对数据进行反序列化处理,得到所需要的数据;
在创建HIVE表的时,通过partitioned by设定表的分区字段,在tblproperties中通过’_partition.a’=’function(b,paramer)’属性指定计算出该分区字段所需要的原始数据列,分区的类型、方法,其中,所述表属性中还配置有多个分区方法以支持HIVE的多级分区。
优选地,步骤1具体包括:加载系统在启动后,在初始化过程中与HIVEmetastore交互获取到对应HIVE表的相应元数据,然后提取加载系统写入数据所需要的各种参数配置和表属性,其中包括HIVE表的分区相关信息;在系统的元数据管理模块中将HIVE表与分区的映射关系进行缓存;
步骤2具体包括:在数据流由数据源模块经过数据通道进入输出接口模块后,判断HIVE表是否需要计算的分区,如果需要则按照对应的方法对HIVE表所有的分区依次进行计算,直至得到最终的分区结果;并通过与HIVEmetastore的交互判断此分区是否已经在HIVE表中存在,如果不存在则需要在HIVE表中添加此分区,并以此分区作为分类依据,将数据放入到不同的缓存区中;最终依次将缓存中的数据写入的HIVE分区对应的不同的hdfs路径中,完成数据的写入。
采用本发明实施例,通过基于Hive的对实时加载的数据进行自动分区存储的实现方法,对实时加载的数据进行自动的分区计算。为数据加载到hive中时的分区计算需求提供有效的解决方案,免去了后期数据处理时人工手动计算的繁琐步骤,也很好的提升了数据检索引擎的检索效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例的系统的整体架构示意图;
图2是本发明实施例的数据处理流程图;
图3是本发明实施例的加载系统框架图。
具体实施方式
本发明实施例提供了一种基于Hive的对实时加载的数据进行自动分区存储的实现方法。本发明实施例实现了对实时加载的数据进行分区计算,支持基于列级别的数据分区,支持等值分区、时间分区、范围分区、哈希分区等分区方式,计算好分区的数据数据可以实时放入相应分区下,可以通过修改Hive的元数据自动添加不存在的分区,自动更新Hive元数据。本发明实施例加载数据入Hive具有分区实时化、自动化、数据落地延迟小等特点。
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明提供了一种基于Hive的对实时加载的数据进行自动分区存储的实现方法。
本发明作为加载系统,实现了由数据的接受、处理、存入到存储介质的功能,并在加载过程中,实现了对数据的分区计算。根据提供的需要计算分区的数据列、计算分区的方法以及分区类型提取出特定的数据列数据内容,计算出分区,并按照此分区,将数据依次放入到hive中。该方法加载数据进入hive,具有效率高,分区实时化,自动化,落地延迟低等特点。为了实现上述功能,本发明实施例大致分为四个部分。
本发明第一部分,对分区方法进行设计。数据的存储以及计算处理都是以hive作为元数据的存储介质,本发明同样以hive中元数据作为数据的加载和分区计算的依据和标准。在创建hive表时,根据数据量大小,业务需求等条件,可以配置多种不同类型的分区方法,支持timestamp、整型、string等数据类型。加载系统在数据加载至hive中的过程中,自动完成分区的计算和数据的入库。为了实现多样的分区计算方式,给出本发明的分区计算的具体类型、分区方法、方法参数。支持的分区方法如下:
表1
分区类型 | 分区函数 | 支持字段类型 | 示例 |
等值分区 | precise | String | precise(a,10) |
hash分区 | hash | 整型 | hash(a,8) |
时间间隔分区 | interval | 整型 | interval(a,86400) |
转换时间分区 | date | 整型、timestamp | date(a,yyyymmdd) |
1.等值分区:按照截取的方式对指定字段进行分区,参数为截取的长度。
2.hash分区:对指定字段取hash值,然后按照给定参数进行取模,以此结果作为数据的分区。
3.时间间隔分区:以给定的时间间隔作为分区,接收的参数为整型数字,表示分区间隔时间对应的秒数。
4.转化时间分区:按照对给定的字段进行转化后的时间作为分区。支持的用于计算分区的字段类型有整型和timestamp。可以按照多种格式对时间字段进行转化,如”yyyy-mm-dd”、”yyyymmdd”、”hh”。
本发明第二部分,给出了加载系统接入、处理、和写入数据的流程框架。加载系统以flume作为运行框架,分为数据源模块(source),数据通道(channel),数据出口模块(sink)三个部分,数据以flume event的封装格式在这三个部分中进行传输。Source作为加载系统的数据源,通过从kafka中拉取数据或者http server服务接受数据等方式进行数据的接受。在source中会对数据进行预备分类,按照数据的来源和数据header上所携带的配置信息进行预处理,得出数据所需要写入的对应的hive表,并将此映射关系放入到数据的header中。随后将数据放入到channel,sink作为数据的输出接口,首先从channel中获取数据,对数据反序列化,进行进一步的校验。随后依据加载系统在hive中所获取的分区设置计算出分区,与数据所对应的数据库名、表名一起作为数据写入hdfs中的key值。依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。
本发明第三部分,给出加载系统所使用的分区计算方法在hive中的配置、获取和使用。在创建hive表的时,通过partitioned by设定表的分区字段,在tblproperties中通过’_partition.a’=’function(b,paramer)’属性指定计算出该分区字段所需要的原始数据列,分区的类型、方法。同时可以在表属性中配置多个分区方法以支持hive的多级分区。加载系统在启动后,在初始化过程中会与hivemetastore交互获取到对应hive表的相应元数据,然后提取加载系统写入数据所需要的各种参数配置和表属性,其中就包括该表的分区相关信息。随后,在系统的元数据管理模块中将表与分区的映射关系进行缓存。在数据流由source经过channel进入sink后,判断此表是否有需要计算的分区,如果有则按照对应的方法对该表所有的分区依次进行计算,直至得到最终的分区结果。通过与hivemetastore的交互判断此分区是否已经在hive表中存在,如果不存在则需要在hive中添加此分区。随后以此分区作为分类依据,将数据放入到不同的缓存区中。
最终依次将缓存中的数据写入的hive分区对应的不同的hdfs路径中,完成数据的写入。
具体实施用例
为了使本发明技术方案的描述更加清楚明白,以下结合附图,对本发明的一个具体实施实例进行说明。
具体步骤如下:
步骤一,带分区的hive表的准备与加载系统搭建。
如附图一所示,该图为本发明的加载系统的框架。
1.首先需要创建hive表,在建表语句中依据本发明自定义的规则指定hive表所需要的分区类型,需要计算的原字段,将这些信息设置在hive表的tblpropertie中。注册schema,shcema是本发明的数据加载过程中数据的描述标准,需要数据的结构和类型信息描述为schema,并注册在shcema registry服务中,在加载系统从kafka或者其他方式中获取到数据后,获取到对应的schema,依此对数据进行反序列化处理,得到所需要的数据。
2.附图1所示为本发明的加载系统搭建所依赖的分布式架构。包括hdfs、
Zookeeper、hive、kafka等分布式系统。Hdfs为系统的文件存储平台,提供了分布式的海量数据存储的能力。Kafka与http server服务均可作为本发明的上游数据来源。
步骤二,数据在本发明的加载系统中的处理流程。
如图二所示,该流程图为数据处理的流程图。附图三描述了加载系统的大致框架结构。依据这两个图对本发明中的加载系统流程进行说明。
1.加载系统的source进行数据的接收,依据kafka topic与hive表的映射关系对数据进行初步的处理,将数据放入到channel中。
2.加载系统的sink端在从channel中获取到数据后,首先从schema registry中获取对应的shcmea,并依据此schema对数据进行反序列化。
在进行校验之后,依据从元数据缓存中获取到的分区信息,计算出分区。从hivemetastore中获取hive表在hdfs中的存储路径,按照分区进行分类,不同分区的数据被放入其所对应的不同的写缓存区中,而每个不同的缓存区对应了不同的hdfs的路径。
3.完成数据的写入。获取到每个分区所持有的文件句柄,如果没有则创建,将缓存区中数据写入到文件中。如果该文件满足了文件关闭所需要的大小、时间等条件,将文件关闭,释放句柄,完成文件的落地。
步骤三,分区计算流程
1.分区计算方式的获取与缓存。在加载系统启动的初始化过程中,会与hivemetastore进行交互,获取hive表的分区计算类型、原数据字段,并将其存储在元数据缓存中。
2.在sink端处理数据时,会在元数据缓存中进行检索,如果数据对应的表含有需要计算的分区,会触发分区计算逻辑,依照在tblproperties中配置的不同的分区函数,计算出分区。
3.在计算出分区后,会判断该hive表中是否已经含有对应的分区,如果没有,需要与hivemetasotre通信,在hive表中添加相应分区。
综上所述,本发明实施例提供了一种支持hive自动分区的加载系统的实现方式,实现了数据加载过程自动计算分区,有自动化、实时化、文件落地延迟小等特点。同时本发明支持hash分区、时间转化分区等多种分区计算方式,能够更大限度的满足多样性的业务需求,有效的提升了检索效率,在大数据处理领域有着广泛的应用前景。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种支持HIVE自动分区的加载系统,其特征在于,包括:
数据源模块,用于接收数据,对数据进行预备分类,按照数据的来源和数据头上所携带的配置信息进行预处理,得到数据所需要写入的对应的HIVE表,将映射关系放入到数据头中,并将数据放入到数据通道;
数据通道,用于作为所述数据源模块和所述输出接口模块之间的数据通道;
输出接口模块,用于从数据通道中获取数据,对数据反序列化,进行进一步的校验,依据加载系统在HIVE中所获取的分区设置计算出分区,将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值,依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。
2.如权利要求1所述的系统,其特征在于,分区计算的类型具体包括:等值分区、hash分区、时间间隔分区、以及转换时间分区。
3.如权利要求1所述的系统,其特征在于,所述数据源模块具体用于:通过从kafka中拉取数据或者http server服务接受数据的方式进行数据的接收。
4.如权利要求1所述的系统,其特征在于,所述系统进一步包括:
创建模块,用于创建HIVE表,在建表语句中指定hive表所需要的分区类型,需要计算的原字段,并将上述信息设置在HIVE表的tblpropertie中,将schema注册在shcema registry服务中,其中,shcema是数据加载过程中数据的描述标准,需要数据的结构和类型信息描述为schema,在加载系统从kafka或者其他方式中获取到数据后,获取到对应的schema,依此对数据进行反序列化处理,得到所需要的数据。
5.如权利要求4所述的系统,其特征在于,所述创建模块具体用于:
在创建HIVE表的时,通过partitioned by设定表的分区字段,在tblproperties中通过’_partition.a’=’function(b,paramer)’属性指定计算出该分区字段所需要的原始数据列,分区的类型、方法,其中,所述表属性中还配置有多个分区方法以支持HIVE的多级分区。
6.如权利要求5所述的系统,其特征在于,所述数据源模块具体用于:
加载系统在启动后,在初始化过程中与HIVEmetastore交互获取到对应HIVE表的相应元数据,然后提取加载系统写入数据所需要的各种参数配置和表属性,其中包括HIVE表的分区相关信息;在系统的元数据管理模块中将HIVE表与分区的映射关系进行缓存。
7.如权利要求6所述的系统,其特征在于,所述输出接口模块具体用于:
在数据流由数据源模块经过数据通道进入输出接口模块后,判断HIVE表是否需要计算的分区,如果需要则按照对应的方法对HIVE表所有的分区依次进行计算,直至得到最终的分区结果;并通过与HIVEmetastore的交互判断此分区是否已经在HIVE表中存在,如果不存在则需要在HIVE表中添加此分区,并以此分区作为分类依据,将数据放入到不同的缓存区中;最终依次将缓存中的数据写入的HIVE分区对应的不同的hdfs路径中,完成数据的写入。
8.一种支持HIVE自动分区的加载系统实现方法,其特征在于,包括:
步骤1,通过数据源模块接收数据,对数据进行预备分类,按照数据的来源和数据头上所携带的配置信息进行预处理,得到数据所需要写入的对应的HIVE表,将映射关系放入到数据头中,并将数据放入到数据通道;
步骤2,通过输出接口模块从数据通道中获取数据,对数据反序列化,进行进一步的校验,依据加载系统在HIVE中所获取的分区设置计算出分区,将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值,依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。
9.如权利要求8所述的方法,其特征在于,所述方法进一步包括:
创建HIVE表,在建表语句中指定hive表所需要的分区类型,需要计算的原字段,并将上述信息设置在HIVE表的tblpropertie中,将schema注册在shcema registry服务中,其中,shcema是数据加载过程中数据的描述标准,需要数据的结构和类型信息描述为schema,在加载系统从kafka或者其他方式中获取到数据后,获取到对应的schema,依此对数据进行反序列化处理,得到所需要的数据;
在创建HIVE表的时,通过partitioned by设定表的分区字段,在tblproperties中通过’_partition.a’=’function(b,paramer)’属性指定计算出该分区字段所需要的原始数据列,分区的类型、方法,其中,所述表属性中还配置有多个分区方法以支持HIVE的多级分区。
10.如权利要求8所述的方法,其特征在于,
步骤1具体包括:加载系统在启动后,在初始化过程中与HIVEmetastore交互获取到对应HIVE表的相应元数据,然后提取加载系统写入数据所需要的各种参数配置和表属性,其中包括HIVE表的分区相关信息;在系统的元数据管理模块中将HIVE表与分区的映射关系进行缓存;
步骤2具体包括:在数据流由数据源模块经过数据通道进入输出接口模块后,判断HIVE表是否需要计算的分区,如果需要则按照对应的方法对HIVE表所有的分区依次进行计算,直至得到最终的分区结果;并通过与HIVEmetastore的交互判断此分区是否已经在HIVE表中存在,如果不存在则需要在HIVE表中添加此分区,并以此分区作为分类依据,将数据放入到不同的缓存区中;最终依次将缓存中的数据写入的HIVE分区对应的不同的hdfs路径中,完成数据的写入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910119268.XA CN109902126B (zh) | 2019-02-18 | 2019-02-18 | 支持hive自动分区的加载系统及其实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910119268.XA CN109902126B (zh) | 2019-02-18 | 2019-02-18 | 支持hive自动分区的加载系统及其实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902126A true CN109902126A (zh) | 2019-06-18 |
CN109902126B CN109902126B (zh) | 2021-12-07 |
Family
ID=66944921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910119268.XA Active CN109902126B (zh) | 2019-02-18 | 2019-02-18 | 支持hive自动分区的加载系统及其实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902126B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177271A (zh) * | 2019-12-31 | 2020-05-19 | 奇安信科技集团股份有限公司 | kafka数据持久化到hdfs的数据存储方法、装置、计算机设备 |
CN111858616A (zh) * | 2020-08-06 | 2020-10-30 | 中国银行股份有限公司 | 流式数据存储方法及装置 |
CN111984659A (zh) * | 2020-07-28 | 2020-11-24 | 招联消费金融有限公司 | 数据更新方法、装置、计算机设备和存储介质 |
CN112100147A (zh) * | 2020-07-27 | 2020-12-18 | 杭州玳数科技有限公司 | 基于Flink实现Binlog到HIVE的实时采集方法和系统 |
CN112347097A (zh) * | 2020-09-23 | 2021-02-09 | 中国科学院信息工程研究所 | 支持多版本Hive表分区的数据加载、查询方法及电子装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102486798A (zh) * | 2010-12-03 | 2012-06-06 | 腾讯科技(深圳)有限公司 | 数据加载的方法及装置 |
CN103902544A (zh) * | 2012-12-25 | 2014-07-02 | 中国移动通信集团公司 | 一种数据处理方法及系统 |
CN104090889A (zh) * | 2013-12-12 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 数据处理方法及系统 |
CN105022763A (zh) * | 2014-04-30 | 2015-11-04 | 博雅网络游戏开发(深圳)有限公司 | 实现数据查询的方法和系统 |
CN105512200A (zh) * | 2015-11-26 | 2016-04-20 | 华为技术有限公司 | 一种分布式数据库处理的方法和设备 |
CN105608203A (zh) * | 2015-12-24 | 2016-05-25 | Tcl集团股份有限公司 | 一种基于Hadoop平台的物联网日志处理方法和装置 |
US9460147B1 (en) * | 2015-06-12 | 2016-10-04 | International Business Machines Corporation | Partition-based index management in hadoop-like data stores |
US9582541B2 (en) * | 2013-02-01 | 2017-02-28 | Netapp, Inc. | Systems, methods, and computer program products to ingest, process, and output large data |
CN107067322A (zh) * | 2017-05-27 | 2017-08-18 | 国家计算机网络与信息安全管理中心 | 一种应用于p2p网络借贷企业数据接入模型的系统及方法 |
CN107818167A (zh) * | 2017-11-08 | 2018-03-20 | 顺丰科技有限公司 | MySQL分区自动管理方法、系统、设备、存储介质 |
-
2019
- 2019-02-18 CN CN201910119268.XA patent/CN109902126B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102486798A (zh) * | 2010-12-03 | 2012-06-06 | 腾讯科技(深圳)有限公司 | 数据加载的方法及装置 |
CN103902544A (zh) * | 2012-12-25 | 2014-07-02 | 中国移动通信集团公司 | 一种数据处理方法及系统 |
US9582541B2 (en) * | 2013-02-01 | 2017-02-28 | Netapp, Inc. | Systems, methods, and computer program products to ingest, process, and output large data |
CN104090889A (zh) * | 2013-12-12 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 数据处理方法及系统 |
CN105022763A (zh) * | 2014-04-30 | 2015-11-04 | 博雅网络游戏开发(深圳)有限公司 | 实现数据查询的方法和系统 |
US9460147B1 (en) * | 2015-06-12 | 2016-10-04 | International Business Machines Corporation | Partition-based index management in hadoop-like data stores |
CN105512200A (zh) * | 2015-11-26 | 2016-04-20 | 华为技术有限公司 | 一种分布式数据库处理的方法和设备 |
CN105608203A (zh) * | 2015-12-24 | 2016-05-25 | Tcl集团股份有限公司 | 一种基于Hadoop平台的物联网日志处理方法和装置 |
CN107067322A (zh) * | 2017-05-27 | 2017-08-18 | 国家计算机网络与信息安全管理中心 | 一种应用于p2p网络借贷企业数据接入模型的系统及方法 |
CN107818167A (zh) * | 2017-11-08 | 2018-03-20 | 顺丰科技有限公司 | MySQL分区自动管理方法、系统、设备、存储介质 |
Non-Patent Citations (2)
Title |
---|
秀才坤坤: "Flume + HDFS + Hive日志收集系统", 《HTTPS://WWW.CNBLOGS.COM/XCKK/P/6125838.HTML?UTM_SOURCE=DEBUGRUN&UTM_MEDIUM=REFERRAL》 * |
魏迪: "基于hadoop的海量业务数据分析平台的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177271A (zh) * | 2019-12-31 | 2020-05-19 | 奇安信科技集团股份有限公司 | kafka数据持久化到hdfs的数据存储方法、装置、计算机设备 |
CN111177271B (zh) * | 2019-12-31 | 2023-11-10 | 奇安信科技集团股份有限公司 | kafka数据持久化到hdfs的数据存储方法、装置、计算机设备 |
CN112100147A (zh) * | 2020-07-27 | 2020-12-18 | 杭州玳数科技有限公司 | 基于Flink实现Binlog到HIVE的实时采集方法和系统 |
CN112100147B (zh) * | 2020-07-27 | 2024-06-07 | 杭州玳数科技有限公司 | 基于Flink实现Binlog到HIVE的实时采集方法和系统 |
CN111984659A (zh) * | 2020-07-28 | 2020-11-24 | 招联消费金融有限公司 | 数据更新方法、装置、计算机设备和存储介质 |
CN111858616A (zh) * | 2020-08-06 | 2020-10-30 | 中国银行股份有限公司 | 流式数据存储方法及装置 |
CN112347097A (zh) * | 2020-09-23 | 2021-02-09 | 中国科学院信息工程研究所 | 支持多版本Hive表分区的数据加载、查询方法及电子装置 |
CN112347097B (zh) * | 2020-09-23 | 2022-07-29 | 中国科学院信息工程研究所 | 支持多版本Hive表分区的数据加载、查询方法及电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109902126B (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902126A (zh) | 支持hive自动分区的加载系统及其实现方法 | |
Holzschuher et al. | Performance of graph query languages: comparison of cypher, gremlin and native access in neo4j | |
CN105653559B (zh) | 用于在数据库中进行搜索的方法和装置 | |
US10339038B1 (en) | Method and system for generating production data pattern driven test data | |
US10698924B2 (en) | Generating partitioned hierarchical groups based on data sets for business intelligence data models | |
US10762072B2 (en) | Processing messages of a plurality of devices | |
EP3502928A1 (en) | Intelligent natural language query processor | |
CN110032575A (zh) | 数据查询方法、装置、设备和存储介质 | |
CN106547766A (zh) | 一种数据访问方法和装置 | |
CN110140121A (zh) | 聚合查询的数据库系统和处理 | |
CN106599164A (zh) | 复杂事件处理中对于参数化的查询/视图的支持 | |
CN109582722A (zh) | 公安资源数据服务系统 | |
US8250052B2 (en) | Geospatial data interaction | |
CN110088749A (zh) | 自动本体生成 | |
CN106682097A (zh) | 一种处理日志数据的方法和装置 | |
CN109656963A (zh) | 元数据获取方法、装置、设备及计算机可读存储介质 | |
CN104050213B (zh) | 包括数据分类的查询处理系统 | |
CN110119473A (zh) | 一种目标文件知识图谱的构建方法及装置 | |
CN110447025A (zh) | 在物联网中启用语义混搭 | |
CN105843867B (zh) | 基于元数据模型的检索方法和基于元数据模型的检索装置 | |
US20190361999A1 (en) | Data analysis over the combination of relational and big data | |
CN107506383A (zh) | 一种审计数据处理方法和计算机设备 | |
CN109271428A (zh) | 数据抽取方法及基于地理信息的数据展示方法 | |
CN110414259A (zh) | 一种构建数据类目、实现数据共享的方法及设备 | |
CN112513836A (zh) | 结构化记录检索 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |