CN117331513A - 基于Hadoop架构的数据精简方法和系统 - Google Patents

基于Hadoop架构的数据精简方法和系统 Download PDF

Info

Publication number
CN117331513A
CN117331513A CN202311630505.1A CN202311630505A CN117331513A CN 117331513 A CN117331513 A CN 117331513A CN 202311630505 A CN202311630505 A CN 202311630505A CN 117331513 A CN117331513 A CN 117331513A
Authority
CN
China
Prior art keywords
data
partition
hive
task
time field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311630505.1A
Other languages
English (en)
Other versions
CN117331513B (zh
Inventor
王克飞
徐超
应春红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Puhuizhizao Technology Co ltd
Original Assignee
Puhuizhizao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Puhuizhizao Technology Co ltd filed Critical Puhuizhizao Technology Co ltd
Priority to CN202311630505.1A priority Critical patent/CN117331513B/zh
Publication of CN117331513A publication Critical patent/CN117331513A/zh
Application granted granted Critical
Publication of CN117331513B publication Critical patent/CN117331513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0625Power saving in storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于Hadoop架构的数据精简方法和系统。具体包括:对于Hadoop架构下的hive2clickhouse的数据同步任务,hive任务的每次运行过程中,增加同步时间字段;clickhouse系统的任务表以该同步时间字段为分区字段,建立新的分区,并设置适当的TTL值;hive任务重跑的时候产生的数据,会基于该同步时间字段进入clickhouse任务表中新的分区;clickhouse系统的bi查询引擎获取该新的分区的数据,执行查询处理;该处理过程中不会出现数据重复和翻倍的现象。

Description

基于Hadoop架构的数据精简方法和系统
技术领域
本发明涉及大数据分析技术领域,特别涉及一种基于Hadoop架构的数据精简方法和系统。
背景技术
目前,互联网大数据技术领域,基本都应用Hadoop框架来搭建大数据系统。hive则是基于该框架的一种数据仓库处理工具,clickhouse则是Hadoop框架下用于联机分析处理的列式数据库管理系统,常用于BI查询引擎。hive数据同步至clickhouse数据库是Hadoop框架下的一种常见的数据处理任务,一般简称为hive2clickhouse任务,可选择seatunnel工具执行该任务。
hive2clickhouse任务进行数据同步过程中,鉴于目前clickhouse系统不支持插入覆盖,当该hive2clickhouse任务多次运行,clickhouse系统内中数据会出现重复、翻倍现象。
发明内容
为了改进现有Hadoop架构下的hive2clickhouse任务数据同步功能,及时实现数据的去重精简,避免clickhouse系统内中数据会出现重复翻倍的现象,本发明提供一种基于Hadoop架构的数据精简方法和系统。
本发明提供了一种基于Hadoop架构的数据精简方法,包括:
步骤S1,对于Hadoop架构下的hive2clickhouse的数据同步任务,hive任务的每次运行过程中,增加同步时间字段;
步骤S2,clickhouse系统的任务表以该同步时间字段为分区字段,建立新的分区,并设置适当的TTL值;
步骤S3,hive任务重跑的时候产生的数据,会基于该同步时间字段进入clickhouse任务表中新的分区;
步骤S4,clickhouse系统的bi查询引擎获取该新的分区的数据,执行查询处理;该处理过程中不会出现数据重复和翻倍的现象。
进一步来说,步骤S3中,hive任务每次重跑过程中产生的数据首先暂存于hive的存储分区中,并以分区为单位同步到clickhouse任务表中新的分区。
进一步来说,本方法还包括:步骤S3中,对hive存储分区的各个分区进行自动比对,确定存在数据重复的分区;并且,对于属于数据重复的分区,进行重复数据关联去重处理。
进一步来说,步骤S3中,对于重复数据关联去重处理后的分区,将其关联的同步时间字段更新为最新的同步时间字段。
进一步来说,步骤S3中,对于hive存储分区的各个分区中数据重复的判断采用如下方式:使用hive的内置函数对分区数据进行聚合操作,然后判断聚合结果是否有重复值。
进一步来说,步骤S3中,对于hive存储分区的各个分区中数据重复的判断采用如下方式:通过编写hiveQL查询语句,使用GROUP BY和HAVING子句来对分区数据进行分组和过滤,以判断是否存在重复数据。例如,可以使用GROUP BY对分区字段进行分组,然后使用HAVING COUNT(*)>1语句来判断是否存在重复数据。
进一步来说,步骤S3中,对于hive存储分区的各个分区中数据重复的判断采用如下方式:使用hive的窗口函数来对分区数据进行排序和分组,然后使用ROW_NUMBER()函数来为每条记录分配一个序号,通过判断序号是否大于1来确定是否存在重复数据。
进一步来说,步骤S3中,对于hive存储分区的各个分区中数据重复的判断采用如下方式:通过用户自定义函数(UDF),根据具体的业务逻辑来实现数据重复判断。具体来说,可以利用Java或Scala的UDF代码,匹配具体的业务逻辑需求,对分区数据进行自定义的重复判断逻辑;将编写的UDF代码打包成一个JAR文件,以便在hive中使用;使用hive的CREATEFUNCTION语句,将打包好的UDF注册到hive中。
本发明进而提供了一种基于Hadoop架构的数据精简系统,其特征在于,包括:
同步时间字段标注模块,用于对于Hadoop架构下的hive2clickhouse的数据同步任务,hive任务的每次运行过程中,增加同步时间字段;
任务表分区模块,用于对于clickhouse系统的任务表以该同步时间字段为分区字段,建立新的分区,并设置适当的TTL值;
数据同步模块,对hive任务重跑的时候产生的数据,会基于该同步时间字段进入clickhouse任务表中新的分区;
Bi查询引擎模块,获取该新的分区的数据,执行查询处理;该处理过程中不会出现数据重复和翻倍的现象。
进一步来说,所述数据同步模块将hive任务每次重跑过程中产生的数据首先暂存于hive的存储分区中,并以分区为单位同步到clickhouse任务表中新的分区。
进一步来说,所述数据同步模块对hive存储分区的各个分区进行自动比对,确定存在数据重复的分区;并且,对于属于数据重复的分区,进行重复数据关联去重处理。
进一步来说,所述数据同步模块对于重复数据关联去重处理后的分区,将其关联的同步时间字段更新为最新的同步时间字段。
进一步来说,所述数据同步模块对于hive存储分区的各个分区中数据重复的判断采用如下方式:使用hive的内置函数对分区数据进行聚合操作,然后判断聚合结果是否有重复值。
进一步来说,所述数据同步模块对于hive存储分区的各个分区中数据重复的判断采用如下方式:通过编写hiveQL查询语句,使用GROUP BY和HAVING子句来对分区数据进行分组和过滤,以判断是否存在重复数据。例如,可以使用GROUP BY对分区字段进行分组,然后使用HAVING COUNT(*)>1语句来判断是否存在重复数据。
进一步来说,所述数据同步模块对于hive存储分区的各个分区中数据重复的判断采用如下方式:使用hive的窗口函数来对分区数据进行排序和分组,然后使用ROW_NUMBER()函数来为每条记录分配一个序号,通过判断序号是否大于1来确定是否存在重复数据。
进一步来说,所述数据同步模块对于hive存储分区的各个分区中数据重复的判断采用如下方式:通过用户自定义函数(UDF),根据具体的业务逻辑来实现数据重复判断。具体来说,可以利用Java或Scala的UDF代码,匹配具体的业务逻辑需求,对分区数据进行自定义的重复判断逻辑;将编写的UDF代码打包成一个JAR文件,以便在hive中使用;使用hive的CREATE FUNCTION语句,将打包好的UDF注册到hive中。
可见,本发明改进现有Hadoop架构下的hive2clickhouse任务数据同步功能,一方面通过hive存储分区的多种手段实现重复数据关联去重,另一方面通过对clickhouse建立同步时间字段关联的分区,及时实现数据的去重精简,避免clickhouse系统内中数据会出现重复翻倍的现象,提高了系统执行效率,降低了存储资源的过度消耗。
附图说明
下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于Hadoop架构的数据精简方法图;
图2是本发明提供的一种基于Hadoop架构的数据精简系统结构图。
具体实施方式
为使本发明实施的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行更加详细的描述。
需要说明的是:在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例,而不是全部的实施例,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面参考图1,本发明提供了一种基于Hadoop架构的数据精简方法,包括:
步骤S1,对于Hadoop架构下的hive2clickhouse的数据同步任务,hive任务的每次运行过程中,增加同步时间字段;
步骤S2,clickhouse系统的任务表以该同步时间字段为分区字段,建立新的分区,并设置适当的TTL值;
步骤S3,hive任务重跑的时候产生的数据,会基于该同步时间字段进入clickhouse任务表中新的分区;
步骤S4,clickhouse系统的bi查询引擎获取该新的分区的数据,执行查询处理;该处理过程中不会出现数据重复和翻倍的现象。
进一步来说,步骤S3中,hive任务每次重跑过程中产生的数据首先暂存于hive的存储分区中,并以分区为单位同步到clickhouse任务表中新的分区。
进一步来说,本方法还包括:步骤S3中,对hive存储分区的各个分区进行自动比对,确定存在数据重复的分区;并且,对于属于数据重复的分区,进行重复数据关联去重处理。
进一步来说,步骤S3中,对于重复数据关联去重处理后的分区,将其关联的同步时间字段更新为最新的同步时间字段。
进一步来说,步骤S3中,对于hive存储分区的各个分区中数据重复的判断采用如下方式:使用hive的内置函数对分区数据进行聚合操作,然后判断聚合结果是否有重复值。
进一步来说,步骤S3中,对于hive存储分区的各个分区中数据重复的判断采用如下方式:通过编写hiveQL查询语句,使用GROUP BY和HAVING子句来对分区数据进行分组和过滤,以判断是否存在重复数据。例如,可以使用GROUP BY对分区字段进行分组,然后使用HAVING COUNT(*)>1语句来判断是否存在重复数据。
进一步来说,步骤S3中,对于hive存储分区的各个分区中数据重复的判断采用如下方式:使用hive的窗口函数来对分区数据进行排序和分组,然后使用ROW_NUMBER()函数来为每条记录分配一个序号,通过判断序号是否大于1来确定是否存在重复数据。
进一步来说,步骤S3中,对于hive存储分区的各个分区中数据重复的判断采用如下方式:通过用户自定义函数(UDF),根据具体的业务逻辑来实现数据重复判断。具体来说,可以利用Java或Scala的UDF代码,匹配具体的业务逻辑需求,对分区数据进行自定义的重复判断逻辑;将编写的UDF代码打包成一个JAR文件,以便在hive中使用;使用hive的CREATEFUNCTION语句,将打包好的UDF注册到hive中。
本发明进而提供了一种基于Hadoop架构的数据精简系统,参见图2,包括:
同步时间字段标注模块,用于对于Hadoop架构下的hive2clickhouse的数据同步任务,hive任务的每次运行过程中,增加同步时间字段;
任务表分区模块,用于对于clickhouse系统的任务表以该同步时间字段为分区字段,建立新的分区,并设置适当的TTL值;
数据同步模块,对hive任务重跑的时候产生的数据,会基于该同步时间字段进入clickhouse任务表中新的分区;
Bi查询引擎模块,获取该新的分区的数据,执行查询处理;该处理过程中不会出现数据重复和翻倍的现象。
进一步来说,所述数据同步模块将hive任务每次重跑过程中产生的数据首先暂存于hive的存储分区中,并以分区为单位同步到clickhouse任务表中新的分区。
进一步来说,所述数据同步模块对hive存储分区的各个分区进行自动比对,确定存在数据重复的分区;并且,对于属于数据重复的分区,进行重复数据关联去重处理。
进一步来说,所述数据同步模块对于重复数据关联去重处理后的分区,将其关联的同步时间字段更新为最新的同步时间字段。
进一步来说,所述数据同步模块对于hive存储分区的各个分区中数据重复的判断采用如下方式:使用hive的内置函数对分区数据进行聚合操作,然后判断聚合结果是否有重复值。
进一步来说,所述数据同步模块对于hive存储分区的各个分区中数据重复的判断采用如下方式:通过编写hiveQL查询语句,使用GROUP BY和HAVING子句来对分区数据进行分组和过滤,以判断是否存在重复数据。例如,可以使用GROUP BY对分区字段进行分组,然后使用HAVING COUNT(*)>1语句来判断是否存在重复数据。
进一步来说,所述数据同步模块对于hive存储分区的各个分区中数据重复的判断采用如下方式:使用hive的窗口函数来对分区数据进行排序和分组,然后使用ROW_NUMBER()函数来为每条记录分配一个序号,通过判断序号是否大于1来确定是否存在重复数据。
进一步来说,所述数据同步模块对于hive存储分区的各个分区中数据重复的判断采用如下方式:通过用户自定义函数(UDF),根据具体的业务逻辑来实现数据重复判断。具体来说,可以利用Java或Scala的UDF代码,匹配具体的业务逻辑需求,对分区数据进行自定义的重复判断逻辑;将编写的UDF代码打包成一个JAR文件,以便在hive中使用;使用hive的CREATE FUNCTION语句,将打包好的UDF注册到hive中。
可见,本发明改进现有Hadoop架构下的hive2clickhouse任务数据同步功能,一方面通过hive存储分区的多种手段实现重复数据关联去重,另一方面通过对clickhouse建立同步时间字段关联的分区,及时实现数据的去重精简,避免clickhouse系统内中数据会出现重复翻倍的现象,提高了系统执行效率,降低了存储资源的过度消耗。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于Hadoop架构的数据精简方法,其特征在于,包括:
步骤S1,对于Hadoop架构下的hive2clickhouse的数据同步任务,hive任务的每次运行过程中,增加同步时间字段;
步骤S2,clickhouse系统的任务表以该同步时间字段为分区字段,建立新的分区,并设置适当的TTL值;
步骤S3,hive任务重跑的时候产生的数据,会基于该同步时间字段进入clickhouse任务表中新的分区;
步骤S4,clickhouse系统的bi查询引擎获取该新的分区的数据,执行查询处理;该处理过程中不会出现数据重复和翻倍的现象。
2.根据权利要求1所述的基于Hadoop架构的数据精简方法,其特征在于,步骤S3中,hive任务每次重跑过程中产生的数据首先暂存于hive的存储分区中,并以分区为单位同步到clickhouse任务表中新的分区。
3.根据权利要求2所述的基于Hadoop架构的数据精简方法,其特征在于,步骤S3中,对hive存储分区的各个分区进行自动比对,确定存在数据重复的分区;并且,对于属于数据重复的分区,进行重复数据关联去重处理。
4.根据权利要求3所述的基于Hadoop架构的数据精简方法,其特征在于,步骤S3中,对于重复数据关联去重处理后的分区,将其关联的同步时间字段更新为最新的同步时间字段。
5.根据权利要求4所述的基于Hadoop架构的数据精简方法,其特征在于,步骤S3中,对于hive存储分区的各个分区中数据重复的判断采用如下方式的至少一个:
方式一:使用hive的内置函数对分区数据进行聚合操作,然后判断聚合结果是否有重复值;
方式二:通过编写hiveQL查询语句,使用GROUP BY和HAVING子句来对分区数据进行分组和过滤,以判断是否存在重复数据;
方式三:使用hive的窗口函数来对分区数据进行排序和分组,然后使用ROW_NUMBER()函数来为每条记录分配一个序号,通过判断序号是否大于1来确定是否存在重复数据;
方式四:通过用户自定义函数(UDF),根据具体的业务逻辑来实现数据重复判断。
6.一种基于Hadoop架构的数据精简系统,其特征在于,包括:
同步时间字段标注模块,用于对于Hadoop架构下的hive2clickhouse的数据同步任务,hive任务的每次运行过程中,增加同步时间字段;
任务表分区模块,用于对于clickhouse系统的任务表以该同步时间字段为分区字段,建立新的分区,并设置适当的TTL值;
数据同步模块,对hive任务重跑的时候产生的数据,会基于该同步时间字段进入clickhouse任务表中新的分区;
Bi查询引擎模块,获取该新的分区的数据,执行查询处理;该处理过程中不会出现数据重复和翻倍的现象。
7.根据权利要求6所述的基于Hadoop架构的数据精简系统,其特征在于,所述数据同步模块将hive任务每次重跑过程中产生的数据首先暂存于hive的存储分区中,并以分区为单位同步到clickhouse任务表中新的分区。
8.根据权利要求7所述的基于Hadoop架构的数据精简系统,其特征在于,所述数据同步模块对hive存储分区的各个分区进行自动比对,确定存在数据重复的分区;并且,对于属于数据重复的分区,进行重复数据关联去重处理。
9.根据权利要求8所述的基于Hadoop架构的数据精简系统,其特征在于,所述数据同步模块对于重复数据关联去重处理后的分区,将其关联的同步时间字段更新为最新的同步时间字段。
10.根据权利要求9所述的基于Hadoop架构的数据精简系统,其特征在于,所述数据同步模块对于hive存储分区的各个分区中数据重复的判断采用如下方式的至少一个:
方式一:使用hive的内置函数对分区数据进行聚合操作,然后判断聚合结果是否有重复值;
方式二:通过编写hiveQL查询语句,使用GROUP BY和HAVING子句来对分区数据进行分组和过滤,以判断是否存在重复数据;
方式三:使用hive的窗口函数来对分区数据进行排序和分组,然后使用ROW_NUMBER()函数来为每条记录分配一个序号,通过判断序号是否大于1来确定是否存在重复数据;
方式四:通过用户自定义函数(UDF),根据具体的业务逻辑来实现数据重复判断。
CN202311630505.1A 2023-12-01 2023-12-01 基于Hadoop架构的数据精简方法和系统 Active CN117331513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311630505.1A CN117331513B (zh) 2023-12-01 2023-12-01 基于Hadoop架构的数据精简方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311630505.1A CN117331513B (zh) 2023-12-01 2023-12-01 基于Hadoop架构的数据精简方法和系统

Publications (2)

Publication Number Publication Date
CN117331513A true CN117331513A (zh) 2024-01-02
CN117331513B CN117331513B (zh) 2024-03-19

Family

ID=89277751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311630505.1A Active CN117331513B (zh) 2023-12-01 2023-12-01 基于Hadoop架构的数据精简方法和系统

Country Status (1)

Country Link
CN (1) CN117331513B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768916B1 (en) * 2011-12-21 2014-07-01 Teradata Us, Inc. Multi level partitioning a fact table
CN112069261A (zh) * 2020-09-09 2020-12-11 携程计算机技术(上海)有限公司 基于分布式系统的数据同步方法、系统、设备及存储介质
CN112115200A (zh) * 2020-09-16 2020-12-22 北京奇艺世纪科技有限公司 数据同步方法、装置、电子设备及可读存储介质
CN112632068A (zh) * 2020-12-22 2021-04-09 银盛支付服务股份有限公司 一种快速提供海量数据查询服务的解决方法
CN113568931A (zh) * 2020-04-29 2021-10-29 盛趣信息技术(上海)有限公司 一种数据访问请求的路由解析系统及方法
CN114328759A (zh) * 2021-12-28 2022-04-12 厦门市美亚柏科信息股份有限公司 一种数据仓库的数据构建与管理方法及终端
CN114579614A (zh) * 2022-02-11 2022-06-03 武汉物易云通网络科技有限公司 一种实时数据全量获取方法、装置及计算机设备
CN115080557A (zh) * 2021-03-16 2022-09-20 京东方科技集团股份有限公司 数据处理方法、数据查询方法、服务器、设备及存储介质
CN115168361A (zh) * 2022-07-19 2022-10-11 中国电子系统技术有限公司 一种标签管理方法和装置
CN115982255A (zh) * 2022-12-02 2023-04-18 中盈优创资讯科技有限公司 一种提升数据etl性能的方法及装置
CN116089535A (zh) * 2023-02-15 2023-05-09 平安科技(深圳)有限公司 数据同步方法、装置、设备及存储介质
CN116737838A (zh) * 2023-07-20 2023-09-12 广州骏伯网络科技有限公司 一种数据同步方法、装置,计算机设备和存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768916B1 (en) * 2011-12-21 2014-07-01 Teradata Us, Inc. Multi level partitioning a fact table
CN113568931A (zh) * 2020-04-29 2021-10-29 盛趣信息技术(上海)有限公司 一种数据访问请求的路由解析系统及方法
CN112069261A (zh) * 2020-09-09 2020-12-11 携程计算机技术(上海)有限公司 基于分布式系统的数据同步方法、系统、设备及存储介质
CN112115200A (zh) * 2020-09-16 2020-12-22 北京奇艺世纪科技有限公司 数据同步方法、装置、电子设备及可读存储介质
CN112632068A (zh) * 2020-12-22 2021-04-09 银盛支付服务股份有限公司 一种快速提供海量数据查询服务的解决方法
CN115080557A (zh) * 2021-03-16 2022-09-20 京东方科技集团股份有限公司 数据处理方法、数据查询方法、服务器、设备及存储介质
CN114328759A (zh) * 2021-12-28 2022-04-12 厦门市美亚柏科信息股份有限公司 一种数据仓库的数据构建与管理方法及终端
CN114579614A (zh) * 2022-02-11 2022-06-03 武汉物易云通网络科技有限公司 一种实时数据全量获取方法、装置及计算机设备
CN115168361A (zh) * 2022-07-19 2022-10-11 中国电子系统技术有限公司 一种标签管理方法和装置
CN115982255A (zh) * 2022-12-02 2023-04-18 中盈优创资讯科技有限公司 一种提升数据etl性能的方法及装置
CN116089535A (zh) * 2023-02-15 2023-05-09 平安科技(深圳)有限公司 数据同步方法、装置、设备及存储介质
CN116737838A (zh) * 2023-07-20 2023-09-12 广州骏伯网络科技有限公司 一种数据同步方法、装置,计算机设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WICKRAMASEKARA 等: "A comparative study between the capabilities of MySQL and ClickHouse in low-performance Linux environment", 《2020 20TH INTERNATIONAL CONFERENCE ON ADVANCES IN ICT FOR EMERGING REGIONS (ICTER-2020)》, 19 June 2021 (2021-06-19), pages 276 - 277 *
孙立华;胡牧;孟庆强;钱亚康;王松;: "配网线损大数据高性能计算解决方案", 计算机与现代化, no. 12, pages 45 - 49 *
陈洪健: "基于ClickHouse的版本化数据迁移方法", 《计算机应用》, vol. 42, no. 2, pages 105 - 110 *

Also Published As

Publication number Publication date
CN117331513B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN104794123B (zh) 一种为半结构化数据构建NoSQL数据库索引的方法及装置
CN111460023A (zh) 基于Elasticsearch的业务数据处理方法、装置、设备及存储介质
CN103678609B (zh) 一种基于分布式关系‑对象映射处理的大数据查询的方法
CN102725753B (zh) 优化数据访问的方法及装置、优化数据存储的方法及装置
CN104036029B (zh) 大数据一致性对比方法和系统
CN104133867A (zh) 分布式顺序表片内二级索引方法及系统
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
CN108073696B (zh) 基于分布式内存数据库的gis应用方法
CN110674154A (zh) 一种基于Spark的对Hive中数据进行插入、更新和删除的方法
CN111460024A (zh) 基于Elasticsearch的实时业务系统
CN106649602B (zh) 业务对象数据处理方法、装置和服务器
CN109885642B (zh) 面向全文检索的分级存储方法及装置
CN110851511A (zh) 数据同步的方法及装置
CN111177244A (zh) 面向多个异构数据库的数据关联分析方法
CN115033646B (zh) 一种基于Flink&Doris构建实时数仓系统的方法
CN109388636A (zh) 业务数据插入数据库方法、装置、计算机设备及存储介质
CN103345527B (zh) 数据智能统计系统
CN107491558A (zh) 元数据更新方法及装置
CN117331513B (zh) 基于Hadoop架构的数据精简方法和系统
CN110704407A (zh) 一种数据去重的方法和系统
CN113590651B (zh) 一种基于hql的跨集群数据处理系统及方法
CN108509585A (zh) 一种异构数据实时交互优化处理方法
CN110825453B (zh) 基于大数据平台的数据处理方法及装置
CN114328439A (zh) 数据存储的方法、装置、电子设备及存储介质
CN113360576A (zh) 一种基于Flink Streaming的电网海量数据实时处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant