CN114546989B - 一种Hbase增量数据迁移系统、方法及存储介质 - Google Patents

一种Hbase增量数据迁移系统、方法及存储介质 Download PDF

Info

Publication number
CN114546989B
CN114546989B CN202210162797.XA CN202210162797A CN114546989B CN 114546989 B CN114546989 B CN 114546989B CN 202210162797 A CN202210162797 A CN 202210162797A CN 114546989 B CN114546989 B CN 114546989B
Authority
CN
China
Prior art keywords
data
hbase
incremental data
cluster
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210162797.XA
Other languages
English (en)
Other versions
CN114546989A (zh
Inventor
段朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Changan Automobile Co Ltd
Original Assignee
Chongqing Changan Automobile Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Changan Automobile Co Ltd filed Critical Chongqing Changan Automobile Co Ltd
Priority to CN202210162797.XA priority Critical patent/CN114546989B/zh
Publication of CN114546989A publication Critical patent/CN114546989A/zh
Application granted granted Critical
Publication of CN114546989B publication Critical patent/CN114546989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种Hbase增量数据迁移系统、方法及存储介质,本发明利用了Hbase的Export工具完成源集群增量数据扫描,采用HDFS DispCp完成增量数据的跨集群传输,最后使用分布式计算引擎Spark将增量数据通过ETL过程转为为Hbase表底层的HFile文件加载到目标集群在线的Hbase表中。在增量数据写入目标Hbase集群的过程中规避了Hbase本身提供的put方法在大写入场景下的Hbase RegionServer节点大GC引发的宕机和性能降低问题,采用Spark‑Bulkload方案在保证Hbase集群稳定的情况下加速增量数据接入。

Description

一种Hbase增量数据迁移系统、方法及存储介质
技术领域
本发明属于Hbase数据库技术领域,更具体涉及混合云Hbase增量数据迁移系统、方法及存储介质。
背景技术
随着智能化汽车的发展,用户端与云端的数据交互越来越频繁,对数据的传输效率要求越来越高,而传统的数据库难以满足频繁且海量的数据传输及存储需求。
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库,HBase 不同于一般的关系型数据库,它是一个适合于非结构化数据存储的数据库,目前的汽车企业通常基于Hbase构建面向用户的高开发读写业务。随着云原生技术的发展,车企的IT架构从单一的私有云架构往由公有云和私有云组成的混合云架构迈进,其中,Hbase组件在公有云和私有云上均有部署,公有云部分承担热数据的存储和查询,私有云承担数据备份和冷数据查询业务。在混合云架构下,如何将公有云Hbase集群每天的增量数据迁移到私有云Hbase集群是构建稳定高效的Hbase查询服务需要解决的首要问题。
混合云Hbase增量数据迁移业务场景可以抽象为Hbase大批量数据写入场景:待写入的数据位于HDFS上,业务需要定期将这部分海量数据导入Hbase中,以执行随机查询更新操作。在这种场景下如果调用Hbase的Put Api进行处理,极有可能给Hbase RegionServer节点带来较大的写入压力,造成Hbase集群不稳定,甚至节点宕机,该方案存在以下问题:
1)引起RegionServer(区域服务器)频繁大GC,导致RegionServer节点宕机。
2)引起ReigonServer频繁flush,进而不断压缩、分裂,影响集群稳定性。
3)消耗Hbase集群大量的CPU磁盘、带宽资源、内存资源及IO资源,与其他业务产生资源竞争。
Hbase的大批量数据写入场景一般会舍弃Put Api的方案而采用Bulkload方案,Hbase原生提供的Bulkload方案基于MapReduce计算引擎实现,MapReduce引擎是一个多进程的计算引擎,相比于多线程的分布式计算引擎Spark,计算资源消耗大,计算效率低。因此,选择Spark引擎实现Hbase的Bulkload海量数据写入在保证计算效率的情况下,可以降低计算资源的消耗。
如我国专利CN110209653A公开的Hbase数据迁移方法及装置,以实现对HBase数据的跨版本迁移。上述迁移方法包括:获取源HBase集群待迁移的表名;待迁移的表名所对应的表格为源HBase表格;在目标HBase集群中建立与源HBase表格对应的目标HBase表格;从配置文件中读取迁移配置参数;根据迁移配置参数,使用DistCp工具将源HBase表格的数据文件拷贝到目标HBase集群;修复目标HBase集群的HBase元信息。在该发明实施例中,基于DistCp可从源地址(源集群)直接将数据拷贝到目标地址(目标集群),从而不产生临时文件,避免了备份文件占用大量存储空间的情况的出现,保证跨版本的数据迁移得以实施。其描述了一种采用HDFS DistCp同步工具直接拷贝源集群中Hbase表HFile到目标集群Hbase表存储目录,再修复目标集群Hbase表元数据的数据迁移方法。该方法采用直接同步Hbase底层数据文件的方式,避免了调用Hbase Put Api的计算资源消耗问题,但依旧会面临如下问题:
1)仅适用于Hbase全表迁移的场景,不适宜Hbase的增量同步场景
2)每次都进行Hbase的全表备份,会消耗大量的公有云到私有云的专线带宽资源,成本高昂。
发明内容
为解决上述问题,本发明提供了一种Hbase增量数据迁移系统、方法及存储介质,实现了混合云架构下Hbase源集群增量数据的高效扫描,提升效率的同时降低了计算资源的使用,具有稳定高效的混合云Hbase集群增量数据同步能力。
为了解决上述技术问题,本发明采用的技术方案是这样的:一种Hbase增量数据迁移系统,其特征在于,包括源集群和目标集群,还包括,
增量导出模块,用于扫描并导出源集群中的增量数据,并将该增量数据存放在源集群指定的目录中;
数据同步模块,用于将所述增量数据同步到目标集群指定的目录中;
文件生成模块,用于将同步到目标集群指定目录中的增量数据生成为目标集群能够加载的目标文件;
数据在线加载模块,用于将所述目标文件加载到目标集群中。
作为优化,还包括大数据分布式调度系统,用于通过任务节点的形式控制所述增量导出模块、数据同步模块、文件生成模块和数据在线加载模块定期将源集群中的增量数据迁移至目标集群。
基于上述系统,本发明还提供了一种Hbase增量数据迁移方法,包括以下步骤,
S1、通过增量导出模块扫描源集群并获取增量数据,将增量数据存放在源集群指定的目录中;
S2、通过数据同步模块将所述增量数据同步传输至目标集群指定的目录中;
S3、通过文件生成模块读取所述增量数据,并对该增量数据进行处理,生成目标集群能够加载的目标文件;
S4、通过数据在线加载模块将所述目标文件加载到目标集群中,完成增量数据由源集群向目标集群的迁移。
作为优化,在步骤S1之前,还包括将增量导出模块、数据同步模块、文件生成模块和数据在线加载模块以任务节点的方式在大数据分布式调度系统上构建任务流,并配置该任务流的调度周期,所述任务流根据该调度周期执行步骤S1-S4完成增强数据的迁移。
作为优化,所述增量导出模块采用Hbase提供的Export工具扫描并导出源集群Hbase表的增量数据,并将该增量数据存放在源集群中按所述调度周期划分的HDFS目录上。
作为优化,所述数据同步模块基于HDFS DistCp实现,其采用HDFS提供的DistCp组件完成源集群到目标集群的增量数据传输,并将增量数据存放在目标集群中按所述调度周期划分的HDFS目录下。
作为优化,所述目标集群的增量数据存储目录和源集群保持一致,并在数据同步的过程中开启Bzip压缩并跳过CRC检验。
作为优化,所述文件生成模块读取目标集群中按调度周期划分的HDFS目录下的增量数据,执行数据的ETL流程,生成目标集群能够加载的HFile文件并重新写回该HDFS目录。
作为优化,所述文件生成模块为基于Spark计算引擎的HFile生成模块,其生成HFile文件包括以下步骤,
S301、使用spark.read算子读取增量数据并转为增量数据RDD,读取Hbase增量数据的schema信息并转为schema的广播变量;
S302、在增量数据RDD上应用flatMap算子并引入schema广播变量,生成HFile所需的RDD类,对RDD进行全局排序。
S303、将排序的RDD写回到目标集群的HDFS目录中。
本发明还提供了一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序被处理器运行时,执行上述的Hbase增量数据迁移方法的步骤。
与现有技术相比,本发明具有如下优点:
本发明利用了Hbase的Export工具完成源集群增量数据扫描,采用HDFS DispCp完成增量数据的跨集群传输,最后使用分布式计算引擎Spark将增量数据通过ETL过程转为为Hbase表底层的HFile文件加载到目标集群在线的Hbase表中。在增量数据写入目标Hbase集群的过程中规避了Hbase本身提供的put方法在大写入场景下的Hbase RegionServer节点大GC引发的宕机和性能降低问题,采用Spark-Bulkload方案在保证Hbase集群稳定的情况下加速增量数据接入。本发明实现了混合云架构下Hbase源集群增量数据的高效扫描;利用Spark计算引擎加速增量数据生成HFile的ETL流程,提升效率的同时降低计算资源的使用;采用Hbase的bulkload数据加载方式,避免大批量数据直接写入Hbase造成的Hbase节点宕机问题,提供了稳定高效的混合云hbase集群增量数据同步能力。
附图说明
图1为本实施例的系统架构图;
图2为本实施例的同步工作流构建示例;
图3为本实施例的基于Spark的HFile生成流程图。
具体实施方式
下面将结合附图及实施例对本发明作进一步说明。
实施例:参见图1-图3,
一种Hbase增量数据迁移系统,其特征在于,包括源集群-公有云Hbase,和目标集群-私有云Hbase,还包括,
增量导出模块,用于扫描并导出源集群中的增量数据,并将该增量数据存放在源集群指定的目录中。具体的,该模块主要用于导出源集群需要进行同步的Hbase表的增量数据。将源Hbase表的增量数据扫描出来存放在源集群固定的HDFS目录上。
数据同步模块,用于将所述增量数据同步到目标集群指定的目录中。所述数据同步模块基于HDFS DistCp实现,用于将源Hbase集群待同步的增量数据同步到目标集群的HDFS指定目录上。
文件生成模块,用于将同步到目标集群指定目录中的增量数据生成为目标集群能够加载的目标文件。所述文件生成模块为HFile生成模块,基于Spark实现,利用ApacheSpark分布式计算引擎将目标集群的增量数据通过ETL操作生成目标集群Hbase表的HFile文件。
数据在线加载模块,用于将所述目标文件加载到目标集群中。其采用Hbase提供的import hfile工具将HFile生成模块生成好的HFile文件在线加载到目标集群Hbase表中。
还包括大数据分布式调度系统,用于通过任务节点的形式控制所述增量导出模块、数据同步模块、文件生成模块和数据在线加载模块定期将源集群中的增量数据迁移至目标集群。具体的,以上模块都以任务节点的形式挂在大数据离线调度系统上,每天凌晨定时将增量数据从公有云Hbase迁移到私有云Hbase。
基于上述系统,本发明还提供了一种基于Spark-Bulkload的混合云Hbase增量数据迁移方法,通过增量导出模块扫描源Hbase集群中待同步Hbase表的增量数据,将其导出到源集群的tmp目录下。数据同步模块采用HDFS提供的DistCp组件完成源集群到目标集群的增量数据传输,每天的增量数据放置在一个按天划分的HDFS目录下。增量数据同步到目标集群后,HFile生成模块会读取按天划分的增量数据,执行数据的ETL流程,将生成的HFile文件重新写回一个按天划分的HDFS目录下。最终,使用数据在线加载模块,将HFile生成模块产出的HFile文件在线加载到目标Hbase集群中。以上四个模块以工作流的形式由大数据分布式调度系统进行每日的定时调度。
具体包括以下步骤,
S0、系统管理员将增量导出模块、数据同步模块、文件生成模块和数据在线加载模块以任务节点的方式在大数据分布式调度系统上构建任务流,并配置该任务流的调度周期,所述任务流根据该调度周期执行步骤S1-S4完成增强数据的迁移。在本实施例中,所述调度周期为一天,时间节点设在每天的凌晨。
S1、通过增量导出模块扫描源集群并获取增量数据,将增量数据存放在源集群指定的目录中。增量导出模块为了保证读取Hbase增量数据的效率,采用Hbase提供的Export工具,指定scanner批次大小为2000,仅导出Hbase最新版本的数据以减少导出的数据量。增量数据放置在源集群HDFS的/tmp/Hbase目录下,按照每个待导出的Hbase表的命名空间_表名的方式构建单表,在单表的HDFS目录下按天进行目录划分。样例执行脚本如下:
S2、通过数据同步模块将所述增量数据同步传输至目标集群指定的目录中。数据同步模块将增量导出模块导出的按Hbase表按天分区的增量数据采用HDFS DistCp的方式同步到目标集群的HDFS的目录上,其中目标集群的增量数据存储目录和源集群保持一致,为保证跨集群数据同步的效率在执行数据同步的过程中开启Bzip压缩并跳过CRC检验。样例执行脚本如下:
S3、通过文件生成模块读取所述增量数据,并对该增量数据进行处理,生成目标集群能够加载的目标文件。所述文件生成模块为基于Spark计算引擎的HFile生成模块,读取增量数据同步模块同步到目标HDFS集群上的增量数据。将类型为SequenceFile的增量数据文件转为Hbase的KeyValue对象构建的RDD,然后将KeyValue RDD转换为HFileOutputFormat2写出到目标集群的hdfs://target-cluster:8020/tmp/hbase/hfile/
namespace_table/yyyy-MM-dd目录下。
基于Spark-Bulkload的HFile生成计算逻辑如图3所示:
S301、使用spark.read算子读取增量数据转为增量数据RDD,读取hbase增量数据的schema信息并转为schema的广播变量,以减少数据join的shuffle计算开销。
S302、在增量数据RDD上应用flatMap算子并引入schema广播变量,在计算逻辑中生成HFile所需的RDD[(KeyFamilyQualifier, KeyValue)]类,对RDD进行全局排序操作。
S303、将按照KeyFamilyQualifier排序的RDD写出到hdfs://target-cluster:8020/
tmp/hbase/hfile/namespace_table/yyyy-MM-dd目录下。到此增量数据对应的HFile生成完成。
Hfile生成模块是一个基于Spark开发的离线计算Jar报,其任务提交样例脚本下所示:
S4、通过数据在线加载模块将所述目标文件加载到目标集群中,完成增量数据由源集群向目标集群的迁移。数据在线加载模块使用Hbase的LoadIncrementalHFiles组件将生成好的HFile文件在线加载到对应的Hbase表中。样例执行脚本如下:
本发明还提供了一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序被处理器运行时,执行上述的基于Spark-Bulkload的混合云Hbase增量数据迁移方法的步骤。
本发明利用了Hbase的Export工具完成源集群增量数据扫描,采用HDFS DispCp完成增量数据的跨集群传输,最后使用分布式计算引擎Spark将增量数据通过ETL过程转为为Hbase表底层的HFile文件加载到目标集群在线的Hbase表中。在增量数据写入目标Hbase集群的过程中规避了Hbase本身提供的put方法在大写入场景下的Hbase RegionServer节点大GC引发的宕机和性能降低问题,采用Spark-Bulkload方案在保证Hbase集群稳定的情况下加速增量数据接入。本发明实现了混合云架构下Hbase源集群增量数据的高效扫描;利用Spark计算引擎加速增量数据生成HFile的ETL流程,提升效率的同时降低计算资源的使用;采用Hbase的bulkload数据加载方式,避免大批量数据直接写入Hbase造成的Hbase节点宕机问题,提供了稳定高效的混合云hbase集群增量数据同步能力。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制技术方案,本领域的普通技术人员应当理解,那些对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种Hbase增量数据迁移系统,其特征在于,包括源集群和目标集群,还包括,
增量导出模块,用于扫描并导出源集群中的增量数据,并将该增量数据存放在源集群指定的目录中;
数据同步模块,用于将所述增量数据同步到目标集群指定的目录中;
文件生成模块,用于将同步到目标集群指定目录中的增量数据生成为目标集群能够加载的目标文件;其中,所述文件生成模块为基于Spark计算引擎的HFile生成模块,其用于生成HFile文件;
具体的,所述文件生成模块用于使用spark.read算子读取增量数据并转为增量数据RDD,读取Hbase增量数据的schema信息并转为schema的广播变量;在增量数据RDD上应用flatMap算子并引入schema广播变量,生成HFile所需的RDD类,对RDD进行全局排序;将排序的RDD写回到目标集群的HDFS目录中;
数据在线加载模块,用于将所述目标文件加载到目标集群中。
2.根据权利要求1所述的一种Hbase增量数据迁移系统,其特征在于,还包括大数据分布式调度系统,用于通过任务节点的形式控制所述增量导出模块、数据同步模块、文件生成模块和数据在线加载模块定期将源集群中的增量数据迁移至目标集群。
3.一种Hbase增量数据迁移方法,其特征在于,包括以下步骤,
S1、通过增量导出模块扫描源集群并获取增量数据,将增量数据存放在源集群指定的目录中;
S2、通过数据同步模块将所述增量数据同步传输至目标集群指定的目录中;
S3、通过文件生成模块读取所述增量数据,并对该增量数据进行处理,生成目标集群能够加载的目标文件;所述文件生成模块为基于Spark计算引擎的HFile生成模块,其生成HFile文件包括以下步骤,
S301、使用spark.read算子读取增量数据并转为增量数据RDD,读取Hbase增量数据的schema信息并转为schema的广播变量;
S302、在增量数据RDD上应用flatMap算子并引入schema广播变量,生成HFile所需的RDD类,对RDD进行全局排序;
S303、将排序的RDD写回到目标集群的HDFS目录中;
S4、通过数据在线加载模块将所述目标文件加载到目标集群中,完成增量数据由源集群向目标集群的迁移。
4.根据权利要求3所述的一种Hbase增量数据迁移方法,其特征在于,在步骤S1之前,还包括将增量导出模块、数据同步模块、文件生成模块和数据在线加载模块以任务节点的方式在大数据分布式调度系统上构建任务流,并配置该任务流的调度周期,所述任务流根据该调度周期执行步骤S1-S4完成增强数据的迁移。
5.根据权利要求4所述的一种Hbase增量数据迁移方法,其特征在于,所述增量导出模块采用Hbase提供的Export工具扫描并导出源集群Hbase表的增量数据,并将该增量数据存放在源集群中按所述调度周期划分的HDFS目录上。
6.根据权利要求4所述的一种Hbase增量数据迁移方法,其特征在于,所述数据同步模块基于HDFS DistCp实现,其采用HDFS提供的DistCp组件完成源集群到目标集群的增量数据传输,并将增量数据存放在目标集群中按所述调度周期划分的HDFS目录下。
7.根据权利要求6所述的一种Hbase增量数据迁移方法,其特征在于,所述目标集群的增量数据存储目录和源集群保持一致,并在数据同步的过程中开启Bzip压缩并跳过CRC检验。
8.根据权利要求6所述的一种Hbase增量数据迁移方法,其特征在于,所述文件生成模块读取目标集群中按调度周期划分的HDFS目录下的增量数据,执行数据的ETL流程,生成目标集群能够加载的HFile文件并重新写回该HDFS目录。
9.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序被处理器运行时,执行如权利要求3~8中任一所述的Hbase增量数据迁移方法的步骤。
CN202210162797.XA 2022-02-22 2022-02-22 一种Hbase增量数据迁移系统、方法及存储介质 Active CN114546989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210162797.XA CN114546989B (zh) 2022-02-22 2022-02-22 一种Hbase增量数据迁移系统、方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210162797.XA CN114546989B (zh) 2022-02-22 2022-02-22 一种Hbase增量数据迁移系统、方法及存储介质

Publications (2)

Publication Number Publication Date
CN114546989A CN114546989A (zh) 2022-05-27
CN114546989B true CN114546989B (zh) 2024-04-12

Family

ID=81676903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210162797.XA Active CN114546989B (zh) 2022-02-22 2022-02-22 一种Hbase增量数据迁移系统、方法及存储介质

Country Status (1)

Country Link
CN (1) CN114546989B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599935A (zh) * 2016-12-29 2017-04-26 重庆邮电大学 基于Spark大数据平台的三支决策不平衡数据过采样方法
CN106779219A (zh) * 2016-12-19 2017-05-31 北京中电普华信息技术有限公司 一种用电量预测方法及系统
CN108628874A (zh) * 2017-03-17 2018-10-09 北京京东尚科信息技术有限公司 迁移数据的方法、装置、电子设备和可读存储介质
CN109918425A (zh) * 2017-12-14 2019-06-21 北京京东尚科信息技术有限公司 一种实现数据导入非关系型数据库的方法和系统
CN110457397A (zh) * 2019-08-16 2019-11-15 深圳前海微众银行股份有限公司 一种数据同步的方法及装置
CN111324596A (zh) * 2020-03-06 2020-06-23 腾讯科技(深圳)有限公司 数据库集群的数据迁移方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10789547B2 (en) * 2016-03-14 2020-09-29 Business Objects Software Ltd. Predictive modeling optimization

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779219A (zh) * 2016-12-19 2017-05-31 北京中电普华信息技术有限公司 一种用电量预测方法及系统
CN106599935A (zh) * 2016-12-29 2017-04-26 重庆邮电大学 基于Spark大数据平台的三支决策不平衡数据过采样方法
CN108628874A (zh) * 2017-03-17 2018-10-09 北京京东尚科信息技术有限公司 迁移数据的方法、装置、电子设备和可读存储介质
CN109918425A (zh) * 2017-12-14 2019-06-21 北京京东尚科信息技术有限公司 一种实现数据导入非关系型数据库的方法和系统
CN110457397A (zh) * 2019-08-16 2019-11-15 深圳前海微众银行股份有限公司 一种数据同步的方法及装置
CN111324596A (zh) * 2020-03-06 2020-06-23 腾讯科技(深圳)有限公司 数据库集群的数据迁移方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AN Evalution of the spark programming model for big data analytics;Haripriya等;《ETD Collection》;20150531;1-5 *
基于ELK和Spark的日志分析系统的研究与实现;袁华;《中国优秀硕士论文全文数据库 信息科技辑》;20181231;I138-758 *

Also Published As

Publication number Publication date
CN114546989A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CA2758518C (en) Asynchronous distributed object uploading for replicated content addressable storage clusters
CN110213352B (zh) 名字空间统一的分散自治存储资源聚合方法
US9600500B1 (en) Single phase transaction commits for distributed database transactions
EP3564835B1 (en) Data redistribution method and apparatus, and database cluster
US20220188196A1 (en) Continuous data protection
CN107180113B (zh) 一种大数据检索平台
WO2013155752A1 (zh) 面向数据库与Hadoop混合平台的OLAP查询处理方法
CN111324610A (zh) 一种数据同步的方法及装置
CN109165206B (zh) 基于容器的hdfs高可用实现方法
CN111177159B (zh) 一种数据处理的系统、方法和数据更新设备
CN112417033A (zh) 一种分布式图数据库多节点数据一致性实现方法和系统
WO2023077971A1 (zh) 事务处理方法、装置、计算设备及存储介质
CN115114374B (zh) 事务执行方法、装置、计算设备及存储介质
CN103365740B (zh) 一种数据冷备方法及装置
CN107566341B (zh) 一种基于联邦分布式文件存储系统的数据持久化存储方法及系统
CN113297159A (zh) 数据存储方法以及装置
CN111930862B (zh) 一种基于大数据平台的sql交互式分析方法及系统
CN114546989B (zh) 一种Hbase增量数据迁移系统、方法及存储介质
CN110874290B (zh) 分布式内存数据库的事务分析混合处理方法及数据库
CN112395308A (zh) 一种基于hdfs数据库的数据查询方法
CN115098473A (zh) 数据库的增量数据迁移方法、装置、电子设备及存储介质
CN104731827A (zh) 快速分布式文件系统文件元数据的生成方法及装置
EL-SAYED et al. Impact of small files on hadoop performance: literature survey and open points
CN113312316A (zh) 数据处理方法及装置
US20240160531A1 (en) Continuous data protection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant