CN117331513A

CN117331513A - 基于Hadoop架构的数据精简方法和系统

Info

Publication number: CN117331513A
Application number: CN202311630505.1A
Authority: CN
Inventors: 王克飞; 徐超; 应春红
Original assignee: Puhuizhizao Technology Co ltd
Current assignee: Puhuizhizao Technology Co ltd
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-01-02
Anticipated expiration: 2043-12-01
Also published as: CN117331513B

Abstract

本发明提供一种基于Hadoop架构的数据精简方法和系统。具体包括：对于Hadoop架构下的hive2clickhouse的数据同步任务，hive任务的每次运行过程中，增加同步时间字段；clickhouse系统的任务表以该同步时间字段为分区字段，建立新的分区，并设置适当的TTL值；hive任务重跑的时候产生的数据，会基于该同步时间字段进入clickhouse任务表中新的分区；clickhouse系统的bi查询引擎获取该新的分区的数据，执行查询处理；该处理过程中不会出现数据重复和翻倍的现象。

Description

基于Hadoop架构的数据精简方法和系统

技术领域

本发明涉及大数据分析技术领域，特别涉及一种基于Hadoop架构的数据精简方法和系统。

背景技术

目前，互联网大数据技术领域，基本都应用Hadoop框架来搭建大数据系统。hive则是基于该框架的一种数据仓库处理工具，clickhouse则是Hadoop框架下用于联机分析处理的列式数据库管理系统，常用于BI查询引擎。hive数据同步至clickhouse数据库是Hadoop框架下的一种常见的数据处理任务，一般简称为hive2clickhouse任务，可选择seatunnel工具执行该任务。

hive2clickhouse任务进行数据同步过程中，鉴于目前clickhouse系统不支持插入覆盖，当该hive2clickhouse任务多次运行，clickhouse系统内中数据会出现重复、翻倍现象。

发明内容

为了改进现有Hadoop架构下的hive2clickhouse任务数据同步功能，及时实现数据的去重精简，避免clickhouse系统内中数据会出现重复翻倍的现象，本发明提供一种基于Hadoop架构的数据精简方法和系统。

本发明提供了一种基于Hadoop架构的数据精简方法，包括：

步骤S1，对于Hadoop架构下的hive2clickhouse的数据同步任务，hive任务的每次运行过程中，增加同步时间字段；

步骤S2，clickhouse系统的任务表以该同步时间字段为分区字段，建立新的分区，并设置适当的TTL值；

步骤S3，hive任务重跑的时候产生的数据，会基于该同步时间字段进入clickhouse任务表中新的分区；

步骤S4，clickhouse系统的bi查询引擎获取该新的分区的数据，执行查询处理；该处理过程中不会出现数据重复和翻倍的现象。

进一步来说，步骤S3中，hive任务每次重跑过程中产生的数据首先暂存于hive的存储分区中，并以分区为单位同步到clickhouse任务表中新的分区。

进一步来说，本方法还包括：步骤S3中，对hive存储分区的各个分区进行自动比对，确定存在数据重复的分区；并且，对于属于数据重复的分区，进行重复数据关联去重处理。

进一步来说，步骤S3中，对于重复数据关联去重处理后的分区，将其关联的同步时间字段更新为最新的同步时间字段。

进一步来说，步骤S3中，对于hive存储分区的各个分区中数据重复的判断采用如下方式：使用hive的内置函数对分区数据进行聚合操作，然后判断聚合结果是否有重复值。

进一步来说，步骤S3中，对于hive存储分区的各个分区中数据重复的判断采用如下方式：通过编写hiveQL查询语句，使用GROUP BY和HAVING子句来对分区数据进行分组和过滤，以判断是否存在重复数据。例如，可以使用GROUP BY对分区字段进行分组，然后使用HAVING COUNT(*)>1语句来判断是否存在重复数据。

进一步来说，步骤S3中，对于hive存储分区的各个分区中数据重复的判断采用如下方式：使用hive的窗口函数来对分区数据进行排序和分组，然后使用ROW_NUMBER()函数来为每条记录分配一个序号，通过判断序号是否大于1来确定是否存在重复数据。

进一步来说，步骤S3中，对于hive存储分区的各个分区中数据重复的判断采用如下方式：通过用户自定义函数（UDF），根据具体的业务逻辑来实现数据重复判断。具体来说，可以利用Java或Scala的UDF代码，匹配具体的业务逻辑需求，对分区数据进行自定义的重复判断逻辑；将编写的UDF代码打包成一个JAR文件，以便在hive中使用；使用hive的CREATEFUNCTION语句，将打包好的UDF注册到hive中。

本发明进而提供了一种基于Hadoop架构的数据精简系统，其特征在于，包括：

同步时间字段标注模块，用于对于Hadoop架构下的hive2clickhouse的数据同步任务，hive任务的每次运行过程中，增加同步时间字段；

任务表分区模块，用于对于clickhouse系统的任务表以该同步时间字段为分区字段，建立新的分区，并设置适当的TTL值；

数据同步模块，对hive任务重跑的时候产生的数据，会基于该同步时间字段进入clickhouse任务表中新的分区；

Bi查询引擎模块，获取该新的分区的数据，执行查询处理；该处理过程中不会出现数据重复和翻倍的现象。

进一步来说，所述数据同步模块将hive任务每次重跑过程中产生的数据首先暂存于hive的存储分区中，并以分区为单位同步到clickhouse任务表中新的分区。

进一步来说，所述数据同步模块对hive存储分区的各个分区进行自动比对，确定存在数据重复的分区；并且，对于属于数据重复的分区，进行重复数据关联去重处理。

进一步来说，所述数据同步模块对于重复数据关联去重处理后的分区，将其关联的同步时间字段更新为最新的同步时间字段。

进一步来说，所述数据同步模块对于hive存储分区的各个分区中数据重复的判断采用如下方式：使用hive的内置函数对分区数据进行聚合操作，然后判断聚合结果是否有重复值。

进一步来说，所述数据同步模块对于hive存储分区的各个分区中数据重复的判断采用如下方式：通过编写hiveQL查询语句，使用GROUP BY和HAVING子句来对分区数据进行分组和过滤，以判断是否存在重复数据。例如，可以使用GROUP BY对分区字段进行分组，然后使用HAVING COUNT(*)>1语句来判断是否存在重复数据。

进一步来说，所述数据同步模块对于hive存储分区的各个分区中数据重复的判断采用如下方式：使用hive的窗口函数来对分区数据进行排序和分组，然后使用ROW_NUMBER()函数来为每条记录分配一个序号，通过判断序号是否大于1来确定是否存在重复数据。

进一步来说，所述数据同步模块对于hive存储分区的各个分区中数据重复的判断采用如下方式：通过用户自定义函数（UDF），根据具体的业务逻辑来实现数据重复判断。具体来说，可以利用Java或Scala的UDF代码，匹配具体的业务逻辑需求，对分区数据进行自定义的重复判断逻辑；将编写的UDF代码打包成一个JAR文件，以便在hive中使用；使用hive的CREATE FUNCTION语句，将打包好的UDF注册到hive中。

可见，本发明改进现有Hadoop架构下的hive2clickhouse任务数据同步功能，一方面通过hive存储分区的多种手段实现重复数据关联去重，另一方面通过对clickhouse建立同步时间字段关联的分区，及时实现数据的去重精简，避免clickhouse系统内中数据会出现重复翻倍的现象，提高了系统执行效率，降低了存储资源的过度消耗。

附图说明

下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于Hadoop架构的数据精简方法图；

图2是本发明提供的一种基于Hadoop架构的数据精简系统结构图。

具体实施方式

为使本发明实施的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行更加详细的描述。

需要说明的是：在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例，而不是全部的实施例，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面参考图1，本发明提供了一种基于Hadoop架构的数据精简方法，包括：

本发明进而提供了一种基于Hadoop架构的数据精简系统，参见图2，包括：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于Hadoop架构的数据精简方法，其特征在于，包括：

2.根据权利要求1所述的基于Hadoop架构的数据精简方法，其特征在于，步骤S3中，hive任务每次重跑过程中产生的数据首先暂存于hive的存储分区中，并以分区为单位同步到clickhouse任务表中新的分区。

3.根据权利要求2所述的基于Hadoop架构的数据精简方法，其特征在于，步骤S3中，对hive存储分区的各个分区进行自动比对，确定存在数据重复的分区；并且，对于属于数据重复的分区，进行重复数据关联去重处理。

4.根据权利要求3所述的基于Hadoop架构的数据精简方法，其特征在于，步骤S3中，对于重复数据关联去重处理后的分区，将其关联的同步时间字段更新为最新的同步时间字段。

5.根据权利要求4所述的基于Hadoop架构的数据精简方法，其特征在于，步骤S3中，对于hive存储分区的各个分区中数据重复的判断采用如下方式的至少一个：

方式一：使用hive的内置函数对分区数据进行聚合操作，然后判断聚合结果是否有重复值；

方式二：通过编写hiveQL查询语句，使用GROUP BY和HAVING子句来对分区数据进行分组和过滤，以判断是否存在重复数据；

方式三：使用hive的窗口函数来对分区数据进行排序和分组，然后使用ROW_NUMBER()函数来为每条记录分配一个序号，通过判断序号是否大于1来确定是否存在重复数据；

方式四：通过用户自定义函数（UDF），根据具体的业务逻辑来实现数据重复判断。

6.一种基于Hadoop架构的数据精简系统，其特征在于，包括：

7.根据权利要求6所述的基于Hadoop架构的数据精简系统，其特征在于，所述数据同步模块将hive任务每次重跑过程中产生的数据首先暂存于hive的存储分区中，并以分区为单位同步到clickhouse任务表中新的分区。

8.根据权利要求7所述的基于Hadoop架构的数据精简系统，其特征在于，所述数据同步模块对hive存储分区的各个分区进行自动比对，确定存在数据重复的分区；并且，对于属于数据重复的分区，进行重复数据关联去重处理。

9.根据权利要求8所述的基于Hadoop架构的数据精简系统，其特征在于，所述数据同步模块对于重复数据关联去重处理后的分区，将其关联的同步时间字段更新为最新的同步时间字段。

10.根据权利要求9所述的基于Hadoop架构的数据精简系统，其特征在于，所述数据同步模块对于hive存储分区的各个分区中数据重复的判断采用如下方式的至少一个：