CN114911866A - 跨高斯集群数据复制方法及相关设备 - Google Patents

跨高斯集群数据复制方法及相关设备 Download PDF

Info

Publication number
CN114911866A
CN114911866A CN202210260518.3A CN202210260518A CN114911866A CN 114911866 A CN114911866 A CN 114911866A CN 202210260518 A CN202210260518 A CN 202210260518A CN 114911866 A CN114911866 A CN 114911866A
Authority
CN
China
Prior art keywords
data
gaussian
cluster
gaussian cluster
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210260518.3A
Other languages
English (en)
Inventor
赵振邦
范铮
王毅
许天娇
胡潇涵
姚江平
黄硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Life Insurance Co ltd
Original Assignee
China Life Insurance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Life Insurance Co ltd filed Critical China Life Insurance Co ltd
Priority to CN202210260518.3A priority Critical patent/CN114911866A/zh
Publication of CN114911866A publication Critical patent/CN114911866A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/483Multiproc

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种跨高斯集群数据复制方法及相关设备,所述方法包括:与源高斯集群建立连接,获取所述源高斯集群的配置表,确定需要复制的数据范围;启动多线程并行的导出任务,根据所述数据范围从所述源高斯集群不同的数据节点上并行导出相应的数据信息;将所述数据信息合并保存为暂存文件;与目标高斯集群建立连接,启动多线程并行的导入任务,将所述暂存文件导入到所述目标高斯集群相应的数据节点上。本申请提供的跨高斯集群数据复制方法及相关设备,可以简单、快速、高效地实现不同高斯集群间的数据复制,提高数据库开发人员和运维人员的工作效率。

Description

跨高斯集群数据复制方法及相关设备
技术领域
本申请涉及数据复制技术领域,尤其涉及一种跨高斯集群数据复制方法及相关设备。
背景技术
GaussDB高斯集群是一个企业级分布式数据库,提供PB级别数据量的处理能力,可以为超大规模数据管理提供高性价比的通用计算平台,也可用于支撑各类数据仓库系统、商业智能系统和决策支持系统,具有广泛应用。现有的不同高斯集群之间数据资源是完全隔离的,当目标高斯集群需要利用源高斯集群中的数据时,通常需要从源高斯集群中逐个导出相应的数据表格再逐个导入到目标高斯集群中,费时费力,工作效率低。
发明内容
有鉴于此,本申请的目的在于提出一种跨高斯集群数据复制方法及相关设备用以解决上述技术问题。
本申请的第一方面,提供了一种跨高斯集群数据复制方法,包括:与源高斯集群建立连接,获取所述源高斯集群的配置表,确定需要复制的数据范围;启动多线程并行的导出任务,根据所述数据范围从所述源高斯集群不同的数据节点上并行导出相应的数据信息;将所述数据信息合并保存为暂存文件;与目标高斯集群建立连接,启动多线程并行的导入任务,将所述暂存文件导入到所述目标高斯集群相应的数据节点上。
进一步地,所述确定需要复制的数据范围,包括:从所述配置表中确定需要复制的多个数据表,根据每个所述数据表的时间戳字段计算增量或全量的所述数据范围。
进一步地,一个线程的所述导出任务被配置为将一个所述数据表在所述源高斯集群不同的数据节点上的数据信息进行并行导出。
进一步地,所述启动多线程并行的导出任务,包括:设定所述导出任务的并行度,所述导出任务的并行度根据所述源高斯集群所在的服务器I/O效率进行调整。
进一步地,所述启动多线程并行的导出任务,包括:设定所述导出任务的重试次数,响应于确定所述导出任务复制失败,重启所述导出任务进行复制,直至重启次数达到所述重试次数或所述导出任务复制成功。
进一步地,所述启动多线程并行的导入任务,包括:设定所述导入任务的并行度,所述导入任务的并行度根据所述目标高斯集群所在的服务器I/O效率进行调整。
进一步地,所述跨高斯集群数据批量复制方法,还包括:在所述源高斯集群的日志表中记录所述导出任务的复制信息。
本申请的第二方面,提供了一种跨高斯集群数据复制装置,包括:匹配模块,被配置为与源高斯集群建立连接,获取源高斯集群的配置表,确定需要复制的数据范围;导出模块,被配置为启动多线程并行的导出任务,根据所述数据范围从所述源高斯集群不同的数据节点上并行导出相应的数据信息;暂存模块,被配置为将所述数据信息合并保存为暂存文件;导入模块,被配置为与目标高斯集群建立连接,启动多线程并行的导入任务,将所述暂存文件导入到所述目标高斯集群相应的数据节点上。
本申请的第三方面,提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上第一方面所述的跨高斯集群数据复制方法。
本申请的第四方面,提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使所述计算机执行如上第一方面所述的跨高斯集群数据复制方法。
从上面所述可以看出,本申请提供了一种跨高斯集群数据复制方法及相关设备,通过获取配置表确定需要复制的数据范围;通过启动多线程并行的导出任务,每个线程的导出任务均可以从源高斯集群不同的数据节点上并行导出相应的数据信息,可以实现同时对多个数据进行导出,提高数据复制效率;通过将数据信息合并保存为暂存文件,可以将导出的分散的数据信息形成多个完整独立的暂存文件,以便对暂存文件进行重复利用;通过启动多线程并行的导入任务,每个线程的导入任务均可以将一个暂存文件导入到目标高斯集群不同的数据节点上,可以实现同时对多个暂存文件进行导入,完成将数据信息从源高斯集群到目标高斯集群的复制;该跨高斯集群数据复制方法及相关设备,可以简单、快速、高效地实现不同高斯集群间的数据复制,提高数据库开发人员和运维人员的工作效率。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的一种跨高斯集群数据复制方法的流程示意图;
图2为本申请实施例的一种跨高斯集群数据复制装置的网络结构示意图;
图3为本申请实施例的另一种跨高斯集群数据复制装置的结构示意图;
图4为本申请实施例的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
GaussDB高斯集群是一个企业级分布式数据库,采用MPP(Massive ParallelProcessing,大规模并行处理)架构,支持行存储与列存储,提供PB级别数据量的处理能力,可以为超大规模数据管理提供高性价比的通用计算平台,也可用于支撑各类数据仓库系统、BI(Business Intelligence,商业智能)系统和决策支持系统,为上层应用的决策分析提供服务,具有广泛应用。
现有的不同高斯集群之间数据资源是完全隔离的,当目标高斯集群需要利用源高斯集群中的数据时,通常需要从源高斯集群中逐个导出相应的数据表格再逐个导入到目标高斯集群中,例如在保险行业,当进行业务报送时,需要读取存储合同的高斯集群数据库,由于缺少不同高斯集群之间数据复制的工具,只能一个一个地对合同表格进行复制,费时费力,工作效率低。
在实现本申请的过程中发现,可以考虑增设GDS(Gauss Data Service,高斯数据服务)服务器,在GDS服务器上设置多线程并行的复制程序对高斯集群数据进行复制,高效、快速地进行数据复制。
以下,通过具体的实施例并结合图1-4来详细说明本申请的技术方案。
本申请的一些实施例中提供了一种跨高斯集群数据复制方法,如图1所示,包括以下步骤:
S1、与源高斯集群建立连接,获取所述源高斯集群的配置表,确定需要复制的数据范围。
与源高斯集群建立连接可以获取源高斯集群的配置表,配置表相当于包含源高斯集群中所有数据表的目录,通过选定对应数据表可以确定需要复制的数据范围。
S2、启动多线程并行的导出任务,根据所述数据范围从所述源高斯集群不同的数据节点上并行导出相应的数据信息。
高斯集群是分布式数据库,包含多个DN(Data Node)数据节点,数据表的数据信息是储存在源高斯集群中不同的数据节点上的,一个线程的所述导出任务被配置为将一个所述数据表在所述源高斯集群不同的数据节点上的数据信息进行并行导出。
每个线程的导出任务均可以从源高斯集群不同的数据节点上并行导出相应数据表的数据信息,通过启动多线程并行的导出任务可以实现同时对多个数据表的数据信息进行导出,提高数据复制效率。
S3、将所述数据信息合并保存为暂存文件。
通过将数据信息合并保存为暂存文件,可以将从源高斯集群导出的分散的数据信息形成多个完整独立的暂存文件,分散的数据信息是难以被利用的,并且也不能导入到目标高斯集群中,通过形成独立的暂存文件形式,数据信息才可以导入到目标高斯集群中,并且对于暂存文件可以进一步重复利用,例如用于其他高斯集群进行应用,不需要再次从源高斯集群中进行导出,提高数据利用率,也提高工作效率。
S4、与目标高斯集群建立连接,启动多线程并行的导入任务,将所述暂存文件导入到所述目标高斯集群相应的数据节点上。
与目标高斯集群建立连接,每个线程的导入任务均可以将一个数据表导入到目标高斯集群不同的数据节点上,利用高斯集群分布式数据库的特点,通过启动多线程并行的导入任务,可以实现同时对多个数据表进行导入,提高工作效率,完成将数据信息从源高斯集群到目标高斯集群的复制。
对于导出任务和导入任务的线程数可以不相同,线程数可以根据相应高斯集群的I/O情况进行自定义设计,这样对于数据信息的复制操作更加灵活,可以提高资源利用率,提高复制稳定性,避免发生故障。
该跨高斯集群数据复制方法可以简单、快速、高效地实现不同高斯集群间的数据复制,提高数据库开发人员和运维人员的工作效率。
在一些实施例中,所述确定需要复制的数据范围,包括:从所述配置表中确定需要复制的多个数据表,根据每个所述数据表的时间戳字段计算增量或全量的所述数据范围。
全量的数据范围为该数据表全部的时间范围内记载的数据信息,以数据表的时间戳字段中最初时间为本次复制的起始时间,以当前时间为本次复制的截止时间,以此确定全量数据范围;增量的数据范围为该数据表排除前次复制内容后记载的数据信息,以数据表的时间戳字段中前次复制的截止时间为本次复制的起始时间,以当前时间为本次复制的截止时间,以此确定增量数据范围。
所述数据范围包括需要复制的数据表在源目标集群上的相应位置信息。
在一些实施例中,步骤S2包括以下步骤:
S201、设定所述导出任务的并行度,所述导出任务的并行度根据所述源高斯集群所在的服务器I/O效率进行调整。
导出任务并行度越大,同一时刻被导出的数据表越多,整体的复制过程越快,但导出任务的并行度需要根据源高斯集群所在的服务器I/O效率进行调整,如果并行度过高,则导出任务过载运行不稳定,容易发生故障;如果并行度过低,则会降低资源利用率,数据复制效率低。
I/O效率即input输入功率与output输出功率之比,根据保险行业经验,一般服务器I/O效率达到80%,并行度通常设置为200,数据复制效果最好,资源利用率高,复制稳定性好,避免发生故障,并行度可以设置为100、200或300等,具体不做限定。
S202、设定所述导出任务的重试次数,响应于确定所述导出任务复制失败,重启所述导出任务进行复制,直至重启次数达到所述重试次数或所述导出任务复制成功。
重试次数例如设置为2次、3次、4次或5次,具体不做限定,导出任务失败可能是由于任务之间有冲突或者存在数据无效等情况,通过设置重试次数,可以在导出任务失败时重新进行数据复制,对复制报错的数据表重新进行导出,直至重启次数达到重试次数或导出任务复制成功,这样提高了数据复制的稳定性和准确性。
S203、设定所述导出任务的行列分隔符,数据表导出时遇到特殊字符可以进行相应换行等操作,避免导出错误。
在一些实施例中,步骤S4包括以下步骤:
S401、设定所述导入任务的并行度,所述导入任务的并行度根据所述目标高斯集群所在的服务器I/O效率进行调整。
导入任务并行度越大,同一时刻被导入的数据表越多,整体的复制过程越快,但导入任务的并行度需要根据目标高斯集群所在的服务器I/O效率进行调整,如果并行度过高,则导入任务过载运行不稳定,容易发生故障;如果并行度过低,则会降低资源利用率,数据复制效率低。
I/O效率即input输入功率与output输出功率之比,根据保险行业经验,一般服务器I/O效率达到80%,并行度通常设置为200,数据复制效果最好,资源利用率高,复制稳定性好,避免发生故障,并行度可以设置为100、200或300等,具体不做限定。
本实施例对于导出任务和导入任务的线程数可以不相同,线程数可以根据相应高斯集群的I/O情况进行自定义设计,这样对于数据信息的复制操作更加灵活,可以提高资源利用率,提高复制稳定性,避免发生故障。
在一些实施例中,步骤S4之后还包括:
S5、在所述源高斯集群的日志表中记录所述导出任务的复制信息。
复制信息包括本次复制的行数等,具体不做限定,通过记录复制信息来留存相应的复制记录,也方便对源高斯集群再次进行数据复制时,如果被复制的数据表与之前已复制的数据表重复,那么可以直接读取相应的暂存文件进行复制,提高整体工作效率。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
该跨高斯集群数据复制方法可以简单、快速、高效地实现不同高斯集群间的数据复制,提高数据库开发人员和运维人员的工作效率。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种跨高斯集群数据复制装置,参考图2,包括:
GDS服务器21,设置有复制程序,所述复制程序被配置为与源高斯集群23建立连接,获取所述源高斯集群23的配置表,确定需要复制的数据范围;启动多线程并行的导出任务,根据所述数据范围从所述源高斯集群23不同的数据节点上并行导出相应的数据信息;将所述数据信息合并保存为暂存文件;与目标高斯集群24建立连接,启动多线程并行的导入任务,将所述暂存文件导入到所述目标高斯集群24相应的数据节点上;
NAS服务器22,与所述GDS服务器21连接,所述暂存文件储存在所述NAS服务器22上。
GDS(Gauss Data Service,高斯数据服务)服务器21,实现数据传输,适合大批量数据导入/导出;NAS(Network Attached Storage,网络附属存储)服务器22为一种专用数据存储服务器,它以数据为中心,将存储设备与服务器彻底分离,集中管理数据,从而释放带宽、提高性能、降低总拥有成本、保护投资。
上述实施例的装置用于实现前述任一实施例中相应的跨高斯集群数据复制方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
在一些实施例中,所述GDS服务器21为多个,例如为4个,具体不做限定,可以扩充暂存量,适应对大批量数据表进行复制工作。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了另一种跨高斯集群数据复制装置,参考图3,包括:
匹配模块31,被配置为与源高斯集群建立连接,获取源高斯集群的配置表,确定需要复制的数据范围;
导出模块32,被配置为启动多线程并行的导出任务,根据所述数据范围从所述源高斯集群不同的数据节点上并行导出相应的数据信息;
暂存模块33,被配置为将所述数据信息合并保存为暂存文件;
导入模块34,被配置为与目标高斯集群建立连接,启动多线程并行的导入任务,将所述暂存文件导入到所述目标高斯集群相应的数据节点上。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的跨高斯集群数据复制方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的跨高斯集群数据复制方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其特征在于处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其特征在于输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其特征在于通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的跨高斯集群数据复制方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的跨高斯集群数据复制方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的跨高斯集群数据复制方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种跨高斯集群数据复制方法,其特征在于,包括:
与源高斯集群建立连接,获取所述源高斯集群的配置表,确定需要复制的数据范围;
启动多线程并行的导出任务,根据所述数据范围从所述源高斯集群不同的数据节点上并行导出相应的数据信息;
将所述数据信息合并保存为暂存文件;
与目标高斯集群建立连接,启动多线程并行的导入任务,将所述暂存文件导入到所述目标高斯集群相应的数据节点上。
2.根据权利要求1所述的跨高斯集群数据复制方法,其特征在于,所述确定需要复制的数据范围,包括:从所述配置表中确定需要复制的多个数据表,根据每个所述数据表的时间戳字段计算增量或全量的所述数据范围。
3.根据权利要求2所述的跨高斯集群数据复制方法,其特征在于,一个线程的所述导出任务被配置为将一个所述数据表在所述源高斯集群不同的数据节点上的数据信息进行并行导出。
4.根据权利要求1所述的跨高斯集群数据复制方法,其特征在于,所述启动多线程并行的导出任务,包括:设定所述导出任务的并行度,所述导出任务的并行度根据所述源高斯集群所在的服务器I/O效率进行调整。
5.根据权利要求1所述的跨高斯集群数据复制方法,其特征在于,所述启动多线程并行的导出任务,包括:设定所述导出任务的重试次数,响应于确定所述导出任务复制失败,重启所述导出任务进行复制,直至重启次数达到所述重试次数或所述导出任务复制成功。
6.根据权利要求1所述的跨高斯集群数据复制方法,其特征在于,所述启动多线程并行的导入任务,包括:设定所述导入任务的并行度,所述导入任务的并行度根据所述目标高斯集群所在的服务器I/O效率进行调整。
7.根据权利要求1所述的跨高斯集群数据复制方法,其特征在于,还包括:在所述源高斯集群的日志表中记录所述导出任务的复制信息。
8.一种跨高斯集群数据复制装置,其特征在于,包括:
匹配模块,被配置为与源高斯集群建立连接,获取源高斯集群的配置表,确定需要复制的数据范围;
导出模块,被配置为启动多线程并行的导出任务,根据所述数据范围从所述源高斯集群不同的数据节点上并行导出相应的数据信息;
暂存模块,被配置为将所述数据信息合并保存为暂存文件;
导入模块,被配置为与目标高斯集群建立连接,启动多线程并行的导入任务,将所述暂存文件导入到所述目标高斯集群相应的数据节点上。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的跨高斯集群数据复制方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使所述计算机执行如权利要求1-7中任意一项所述的跨高斯集群数据复制方法。
CN202210260518.3A 2022-03-16 2022-03-16 跨高斯集群数据复制方法及相关设备 Pending CN114911866A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210260518.3A CN114911866A (zh) 2022-03-16 2022-03-16 跨高斯集群数据复制方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210260518.3A CN114911866A (zh) 2022-03-16 2022-03-16 跨高斯集群数据复制方法及相关设备

Publications (1)

Publication Number Publication Date
CN114911866A true CN114911866A (zh) 2022-08-16

Family

ID=82763385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210260518.3A Pending CN114911866A (zh) 2022-03-16 2022-03-16 跨高斯集群数据复制方法及相关设备

Country Status (1)

Country Link
CN (1) CN114911866A (zh)

Similar Documents

Publication Publication Date Title
US11422982B2 (en) Scaling stateful clusters while maintaining access
US9026502B2 (en) Feedback optimized checks for database migration
US9619430B2 (en) Active non-volatile memory post-processing
US8886781B2 (en) Load balancing in cluster storage systems
US10671975B2 (en) Smart streaming of data between external systems and service providers in an on-demand environment
US10152499B1 (en) Database replication scaling
CN106339386B (zh) 数据库弹性调度方法以及装置
US9535754B1 (en) Dynamic provisioning of computing resources
US8843632B2 (en) Allocation of resources between web services in a composite service
CN110162512B (zh) 一种日志检索方法、装置及存储介质
CN110737720A (zh) 一种db2数据库数据同步方法、装置、系统
CN109144783B (zh) 一种分布式海量非结构化数据备份方法及系统
TW201727517A (zh) 資料儲存與業務處理的方法及裝置
CN111382128A (zh) 一种文件的拆分方法、装置及计算机系统
CN110019169B (zh) 一种数据处理的方法及装置
US20150039847A1 (en) Balancing data distribution in a fault-tolerant storage system
CN111444148A (zh) 基于MapReduce的数据传输方法和装置
CN114911866A (zh) 跨高斯集群数据复制方法及相关设备
CN115952227A (zh) 数据采集系统及方法、电子设备和存储介质
US11340952B2 (en) Function performance trigger
US20160156525A1 (en) Dynamic conversion of hardware resources of a server system
CN112540772A (zh) 应用发布方法及其系统、电子设备、存储介质
CN112288586A (zh) 基于HBase的保险行业数据整合方法及相关设备
US20140358953A1 (en) Problem management record profiling
Suleykin et al. Comparing HDFS–Greenplum Data Loading Options

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination