CN110175209A - 增量数据同步方法、系统、设备及存储介质 - Google Patents

增量数据同步方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN110175209A
CN110175209A CN201910295392.1A CN201910295392A CN110175209A CN 110175209 A CN110175209 A CN 110175209A CN 201910295392 A CN201910295392 A CN 201910295392A CN 110175209 A CN110175209 A CN 110175209A
Authority
CN
China
Prior art keywords
node
incremental data
batch
concurrently
parsing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910295392.1A
Other languages
English (en)
Inventor
苏玉坤
吕景耀
章进念
邵利铎
奎志刚
帅玉廷
王新文
杨亚刚
侯鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PICC PROPERTY AND CASUALTY Co Ltd
Original Assignee
PICC PROPERTY AND CASUALTY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PICC PROPERTY AND CASUALTY Co Ltd filed Critical PICC PROPERTY AND CASUALTY Co Ltd
Priority to CN201910295392.1A priority Critical patent/CN110175209A/zh
Publication of CN110175209A publication Critical patent/CN110175209A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种增量数据同步方法、系统、设备及存储介质。在本申请一些示例性实施例中,利用部署于多台计算机设备上的分布式计算框架,解析节点并行地对源数据库在指定时段内产生的日志数据进行解析,获取原始增量数据文件;预处理节点并行地对原始增量数据文件进行预处理,生成多个中间增量数据文件;并行地调用表结构解析工具将多个中间增量数据文件进行表结构解析,得到本批次的临时增量表;合并节点并行地对本批次的临时增量表与前一批次的临时增量表进行合并处理,得到多个目标增量表;同步节点并行地将多个目标增量表同步至指定的数据仓库中,利用分布式计算框架,大大提供数据处理效率。

Description

增量数据同步方法、系统、设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种增量数据同步方法、系统、设备及存储介质。
背景技术
数据仓库(Data Warehouse),是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建,为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。为了充分利用数据仓库,业务数据系统需要及时、准确地将系统产生的增量数据同步至数据仓库内。
目前,业务数据系统的数据量大、数据文件多、数据格式不统一导致向数据仓库同步数据的效率低下,且扩展性差、容错性差。
发明内容
本申请的多个方面提供一种数据处理方法、系统、设备及存储介质,利用分布式计算框架,可以并发进行多个批次的增量数据原始文件的处理,有效满足数据仓库对数量量大、数据文件多、数据格式不统一的数据同步的需求。
本申请实施例提供一种增量数据同步方法,包括:
利用分布式计算框架中的解析节点并行地对源数据库在指定时段内产生的日志数据进行解析,以获取原始增量数据文件;
利用分布式计算框架中的预处理节点并行地对所述原始增量数据文件进行预处理,生成多个中间增量数据文件;
并行地调用表结构解析工具将所述多个中间增量数据文件进行表结构解析,得到本批次的临时增量表;
利用分布式计算框架中的合并节点并行地对本批次的临时增量表与前一批次的临时增量表进行合并处理,得到多个目标增量表;
利用分布式计算框架中的同步节点并行地将所述多个目标增量表同步至指定的数据仓库中。
本申请实施例还提供一种增量数据同步系统,包括:多台计算机设备;所述多台计算机设备上部署有分布式计算框架,所述分布式计算框架包括:主控节点、解析节点、预处理节点、合并节点以及同步节点;
所述主控节点,用于利用所述解析节点并行地对源数据库在指定时段内产生的日志数据进行解析,以获取多个原始增量数据文件;
利用所述预处理节点并行地对所述原始增量数据文件进行预处理,生成多个中间增量数据文件;
并行地调用表结构解析工具将所述多个中间增量数量文件进行表结构解析,得到本批次的临时增量表,本批次增量数据包括至少一个中间增量数据文件;
利用所述合并节点并行地对本批次的临时增量表与前一批次的临时增量表进行合并处理,得到多个目标增量表;
利用所述同步节点并行地将所述多个目标增量表同步至指定的数据仓库中。
本申请实施例还提供一种主控设备,包括:一个或多个处理器以及一个或多个存储计算机程序的存储器;所述一个或多个处理器,用于执行所述计算机程序,以用于:
利用所述解析节点并行地对源数据库在指定时段内产生的日志数据进行解析,以获取多个原始增量数据文件;
利用所述预处理节点并行地对所述原始增量数据文件进行预处理,生成多个中间增量数据文件;
并行地调用表结构解析工具将所述多个中间增量数量文件进行表结构解析,得到本批次的临时增量表,本批次增量数据包括至少一个中间增量数据文件;
利用所述合并节点并行地对本批次的临时增量表与前一批次的临时增量表进行合并处理,得到多个目标增量表;
利用所述同步节点并行地将所述多个目标增量表同步至指定的数据仓库中。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器执行上述方法中的步骤。
在本申请实施例中,在多台计算机设备上部署分布式计算框架,分布式计算框架包括:主控节点、解析节点、预处理节点、合并节点和同步节点,其中,在主控节点的控制下,在增量数据同步过程的各阶段分别利用解析节点、预处理节点、合并节点以及同步节点并行地进行处理,可以并发进行多个批次的增量数据原始文件的处理,而且在同步过程中加入预处理和合并等环节解决数据格式不统一等问题,可有效满足数据仓库对数量量大、数据文件多、数据格式不统一的数据同步的需求,且数据处理扩展性和容错性均得到提高。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请示例性实施例提供的一种增量数据同步系统10的结构示意图;
图2为本申请示例性实施例提供的一种增量数据同步方法的方法流程图;
图3为本申请示例性实施例提供的另一种增量数据同步方法的方法流程图;
图4为本申请示例性实施例提供的在保险数据处理场景中的增量数据同步方法;
图5为本申请示例性实施例提供的一种主控设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
针对目前保险业务系统的数据量大、数据文件多、数据格式不统一导致向数据仓库同步数据的效率低下,且扩展性差、容错性差的问题,在本申请实施例中,在多台计算机设备上部署分布式计算框架,分布式计算框架包括:主控节点、解析节点、预处理节点、合并节点和同步节点,其中,在主控节点的控制下,在增量数据同步过程的各阶段分别利用解析节点、预处理节点、合并节点以及同步节点并行地进行处理,可以并发进行多个批次的增量数据原始文件的处理,而且在同步过程中加入预处理和合并等环节解决数据格式不统一等问题,可有效满足数据仓库对数量量大、数据文件多、数据格式不统一的数据同步的需求,且数据处理扩展性和容错性均得到提高。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请示例性实施例提供的一种增量数据同步系统10的结构示意图。如图1所示,该增量数据同步系统包括多台计算机设备,多台计算机设备上部署有分布式计算框架,分布式计算框架包括:主控节点10a,解析节点10b,预处理节点10c、合并节点10d以及同步节点10e。主控节点10a,解析节点10b,预处理节点10c、合并节点10d以及同步节点10e分散部署在多台计算机设备上。值得说明的是,同台计算机设备上可以只部署其中某类节点,也可以同时部署多类节点。例如,一台计算机设备上可以同时部署有解析节点10b和预处理节点10c。
在本实施例中,主控节点10a可与解析节点10b,预处理节点10c、合并节点10d以及同步节点10e连接,主要为解析节点10b,预处理节点10c、合并节点10d以及同步节点10e提供数据支持、计算服务以及一些管控服务。主控节点10a部署在某台或某几台计算机设备上,部署主控节点10a的计算机设备可以为服务器,并不限定服务器的实现形态,例如可以是常规服务器、云服务器、云主机、虚拟中心等服务器设备。其中,服务器设备的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类型。同理,解析节点10b,预处理节点10c、合并节点10d以及同步节点10e所在的计算机设备也可以为服务器,并不限定服务器的实现形态,例如可以是常规服务器、云服务器、云主机、虚拟中心等服务器设备,也可以是智能手机、个人电脑、穿戴设备、平板电脑等。
在本实施例中,主控节点10a可与解析节点10b,预处理节点10c、合并节点10d以及同步节点10e建立通信连接。或者,主控节点10a可与解析节点10b,预处理节点10c、合并节点10d以及同步节点10e通过移动网络建立通信连接,其中,移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax等中的任意一种。
在本实施例中,在主控节点10a的控制下,在增量数据同步过程的各阶段分别利用解析节点10b,预处理节点10c、合并节点10d以及同步节点10e并行地进行处理。主控节点10a控制解析节点10b并行地对源数据库在指定时段内产生的日志数据进行解析,以获取原始增量数据文件,并将结果返回至主控节点10a中;主控节点10a控制分布式计算框架中的预处理节点10c并行地对所述原始增量数据文件进行预处理,生成多个中间增量数据文件,并将结果返回至主控节点10a中;主控节点10a并行地调用表结构解析工具将所述多个中间增量数据文件进行表结构解析,得到本批次的临时增量表,并将结果返回至主控节点10a中;主控节点10a控制分布式计算框架中的合并节点10d并行地对本批次的临时增量表与前一批次的临时增量表进行合并处理,得到多个目标增量表,并将结果返回至主控节点10a中;主控节点10a控制分布式计算框架中的同步节点10e并行地将所述多个目标增量表同步至指定的数据仓库中。
图2为本申请示例性实施例提供的一种增量数据同步方法的方法流程图,该方法适用于分布式计算框架中的主控节点,如图2所示,该方法包括以下步骤:
S201:利用分布式计算框架中的解析节点并行地对源数据库在指定时段内产生的日志数据进行解析,以获取原始增量数据文件;
S202:利用分布式计算框架中的预处理节点并行地对原始增量数据文件进行预处理,生成多个中间增量数据文件;
S203:并行地调用表结构解析工具将多个中间增量数据文件进行表结构解析,得到本批次的临时增量表;
S204:利用分布式计算框架中的合并节点并行地对本批次的临时增量表与前一批次的临时增量表进行合并处理,得到多个目标增量表;
S205:利用分布式计算框架中的同步节点并行地将多个目标增量表同步至指定的数据仓库中。
在本实施例中,采用增量数据同步系统对各业务数据系统中的数据量大、数据文件多、数据格式不统一的业务数据进行处理,以及时、准确地将各业务数据系统中的数据同步至指定的数据仓库内。该增量数据同步系统包括多台计算机设备,在多台计算及设备上部署有分布式计算框架,在本实施例中,分布式计算框架包括但不限于下列几种:一个主控节点、至少一个解析节点、至少一个预处理节点、至少一个合并节点以及至少一个同步节点,主控节点调度各个子节点的进程运作。其中,一个主控节点、至少一个解析节点、至少一个预处理节点、至少一个合并节点以及至少一个同步节点部署于多台计算机设备上;根据数据处理的具体情况,至少一个解析节点、至少一个预处理节点、至少一个合并节点以及至少一个同步节点即可部署在一台计算机设备上,也可部署于多台计算机设备上。
在上述实施例中,利用分布式计算框架中主控节点,启动主控制程序,对多个数据同步进程进行初始化。
在对数据同步进程进行初始化后,将源数据库中的数据读取至增量数据同步系统中的存储单元中以进行数据的处理。一种可实现的方式为,利用分布式计算框架中的解析节点并行地对源数据库在指定时段内产生的日志数据进行解析,以获取原始增量数据文件。主控节点调度解析节点并行地对源数据库在指定时段内产生的日志数据进行解析,获取到原始增量数据文件,并将获取到的原始增量数据文件存储到增量数据同步系统中的存储单元中,并将原始增量数据文件存储的结果返回至主控节点
在上述实施例中,判断当前是否存在待处理的原始增量数据文件;若判断结果为是,则利用分布式计算框架中的预处理节点并行地对原始增量数据文件进行预处理;若判断结果为否,则等待下次轮询。在本实施例中,定时判断当前是否存在待处理的原始增量数据文件,定时时长可以为5分钟、10分钟、15分钟,例如,定时时间为5分钟,则每隔5分钟判断当前是否存在待处理的原始增量数据文件,若判断结果为是,则利用分布式计算框架中的预处理节点并行地对原始增量数据文件进行预处理,若判断结果为否,则等待5分钟后的下次轮询。
在上述实施例中,利用分布式计算框架中的预处理节点并行地对原始增量数据文件进行预处理,生成多个中间增量数据文件,包括对原始增量数据文件进行解压上传,以及进行数据清洗等必要的数据处理,其中,主控节点可以根据实际情况动态调整预处理节点中的进程的数量进行数据处理。主控节点调度预处理节点并行地对存储在存储单元中的原始增量数据文件进行预处理,生成多个中间增量数据文件,并将多个中间增量数据文件存储至增量数据同步系统中的存储单元中,并将存储结果返回至主控节点中。
在数据处理过程中,在数据同步至数据仓库之前,同一张表的数据可能会存在更新、插入、删除的情况,因此,需要将多个批次的数据进行合并处理,将最终形成的表结果同步至数据仓库中。将多个批次的数据进行合并的一种可实现的方式为,并行地调用表结构解析工具将多个中间增量数据文件进行表结构解析,得到本批次的临时增量表;利用分布式计算框架中的合并节点并行地对本批次的临时增量表与前一批次的临时增量表进行合并处理,得到多个目标增量表。主控节点并行地调用表结构解析工具将所述多个中间增量数据文件进行表结构解析,得到本批次的临时增量表,主控节点调度合并节点并行地对本批次的临时增量表与前一批次的临时增量表进行合并处理,得到多个目标增量表,并将得到的多个目标增量表存储至增量数据同步系统中的存储单元中,并将存储结果返回至主控节点中。
可选地,并行地调用表结构解析工具将多个中间增量数据文件进行表结构解析,得到本批次的临时增量表,一种可实现的方式为,将多个中间增量数据文件导入中间数据库;利用已有的外部配置库,对导入中间数据库中的多个中间增量数据文件进行表结构解析,得到本批次的临时增量表。例如,将多个中间增量数据文件导入Postgresql数据库中,通过已有的Redis配置库,读取Redis配置库中的配置格式,对多个中间增量数据文件进行表结构解析得到本批次的临时增量表,临时增量表包括变更增量表(ΔIU)和删除增量表(ΔD)。
可选地,利用分布式计算框架中的合并节点并行地对本批次的临时增量表与前一批次的临时增量表进行合并处理,得到多个目标增量表。一种可选实施例为,将变更增量表中存在的主键,在删除增量表中删除该主键;使用删除记录的主键,更新上一批次数据,确保删除操作得到体现;将删除记录的主键按照指定格式进行保存,将本批次变更增量表和删除增量表和前一批次的变更增量表和删除增量表分别进行合并,得到多个待导入数据仓库的目标增量表。在该实施例中,主控节点可动态调整合并节点中的进程数量并行地对本批次的临时增量表与前一批次的临时增量表进行合并处理,各批次的临时增量表进行合并依据先删后插的原则。
在得到多个目标增量表后,利用分布式计算框架中的同步节点并行地将多个目标增量表同步至指定的数据仓库中。主控节点调度同步节点并行地将多个目标增量表同步至指定的数据仓库中。其中,多个目标增量表同步至指定的数据仓库中可以按照设定时间同步。其中,为了提供数据处理的效率,多个目标增量表存储至缓存中,并在将多个目标增量表同步至指定的数据仓库中后,将已经同步的多个目标增量表从缓存中删除。增量数据同步系统在得到多个目标增量表后,需要向主控节点发送完成指令,主控节点接收到该完成指令再将个目标增量表同步至数据仓库中,在上述两个步骤之间建立严格的锁机制,避免数据脏读等情况出现。
基于上述各实施例的描述,图3为本申请示例性实施例提供的一种更加详细的增量数据同步方法的方法流程图。如图3所示,该方法包括:
S301:利用分布式计算框架中主控节点,启动主控制程序,对多个数据同步进程进行初始化;
S302:利用分布式计算框架中的解析节点并行地对源数据库在指定时段内产生的日志数据进行解析,以获取原始增量数据文件;
S303:判断当前是否存在待处理的原始增量数据文件;若判断结果为是,则执行步骤S204;若判断结果为否,则执行步骤S202;
S304:利用分布式计算框架中的预处理节点并行地对原始增量数据文件进行预处理,生成多个中间增量数据文件;
S305:并行地调用表结构解析工具将多个中间增量数据文件进行表结构解析,得到本批次的临时增量表;
S306:利用分布式计算框架中的合并节点并行地对本批次的临时增量表与前一批次的临时增量表进行合并处理,得到多个目标增量表;
S307:利用分布式计算框架中的同步节点并行地将多个目标增量表同步至指定的数据仓库中。
结合上述各实施例,图4为本申请示例性实施例提供的在保险数据处理场景中的增量数据同步方法,如图4所示,该方法包括:
步骤一:启动主控制程序,对各类数据同步和数据处理的基础进程进行初始化;
步骤二:定时5分钟同步源数据库中的数据;
步骤三:判断当前是否存在待处理的原始增量数据文件;若判断结果为是,则执行步骤四;若判断结果为否,则等待下次轮询;
步骤四:并行将多个中间增量数据文件导入Postgresql数据库中,生成最终的多个目标增量表;
步骤五:并行将多个目标增量表同步至指定的数据仓库中。
在上述各增量数据同步方法的实施例中,在多台计算机设备上部署分布式计算框架,分布式计算框架包括:主控节点、解析节点、预处理节点、合并节点和同步节点,其中,在主控节点的控制下,在增量数据同步过程的各阶段分别利用解析节点、预处理节点、合并节点以及同步节点并行地进行处理,可以并发进行多个批次的增量数据原始文件的处理,而且在同步过程中加入预处理和合并等环节解决数据格式不统一等问题,可有效满足数据仓库对数量量大、数据文件多、数据格式不统一的数据同步的需求,且数据处理扩展性和容错性均得到提高。图5为本申请示例性实施例提供的一种主控设备的结构框图,如图5所示,该计算设备包括:存储器502、处理器501;计算设备还可以包括电源组件503,通信组件504等必要组件。
存储器502,用于存储计算机程序;
处理器501,用于执行计算机程序,以用于:
利用所述解析节点并行地对源数据库在指定时段内产生的日志数据进行解析,以获取多个原始增量数据文件;
利用所述预处理节点并行地对所述原始增量数据文件进行预处理,生成多个中间增量数据文件;
并行地调用表结构解析工具将所述多个中间增量数量文件进行表结构解析,得到本批次的临时增量表,本批次增量数据包括至少一个中间增量数据文件;
利用所述合并节点并行地对本批次的临时增量表与前一批次的临时增量表进行合并处理,得到多个目标增量表;
利用所述同步节点并行地将所述多个目标增量表同步至指定的数据仓库中。
可选地,处理器501在利用分布式计算框架中的预处理节点并行地对所述原始增量数据文件进行预处理之前,还可用于:
判断当前是否存在待处理的原始增量数据文件;
若判断结果为是,则利用分布式计算框架中的预处理节点并行地对所述原始增量数据文件进行预处理;
若判断结果为否,则等待下次轮询。
可选地,处理器501在判断当前是否存在待处理的原始增量数据文件之前,还可用于:
利用分布式计算框架中主控节点,启动主控制程序,对多个数据同步进程进行初始化。
可选地,处理器501在并行地调用表结构解析工具将所述多个中间增量数据文件进行表结构解析,得到本批次的临时增量表,具体用于:
将所述多个中间增量数据文件并行地导入中间数据库;
利用已有的外部配置库,对导入中间数据库中的多个中间增量数据文件进行表结构解析,得到本批次的临时增量表。
可选地,所述中间数据库为Postgresql数据库,所述外部配置库为Redis配置库。
可选地,处理器501在在得到多个目标增量表之后,还可用于:
将所述多个目标增量表存储至缓存中;
处理器501在利用分布式计算框架中的同步节点并行地将所述多个目标增量表同步至指定的数据仓库中后,还可用于:
将缓存中存储的目标增量表清除。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序,且计算机程序被一个或多个处理器执行时,致使一个或多个处理器执行图1方法实施例中的各步骤。
在上述主控设备的实施例中,在多台计算机设备上部署分布式计算框架,分布式计算框架包括:主控节点、解析节点、预处理节点、合并节点和同步节点,其中,在主控节点的控制下,在增量数据同步过程的各阶段分别利用解析节点、预处理节点、合并节点以及同步节点并行地进行处理,可以并发进行多个批次的增量数据原始文件的处理,而且在同步过程中加入预处理和合并等环节解决数据格式不统一等问题,可有效满足数据仓库对数量量大、数据文件多、数据格式不统一的数据同步的需求,且数据处理扩展性和容错性均得到提高。
上述图5中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术和蓝牙(BT)技术等,以促进短程通信。
上述图5中的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种增量数据同步方法,其特征在于,包括:
利用分布式计算框架中的解析节点并行地对源数据库在指定时段内产生的日志数据进行解析,以获取原始增量数据文件;
利用分布式计算框架中的预处理节点并行地对所述原始增量数据文件进行预处理,生成多个中间增量数据文件;
并行地调用表结构解析工具将所述多个中间增量数据文件进行表结构解析,得到本批次的临时增量表;
利用分布式计算框架中的合并节点并行地对本批次的临时增量表与前一批次的临时增量表进行合并处理,得到多个目标增量表;
利用分布式计算框架中的同步节点并行地将所述多个目标增量表同步至指定的数据仓库中。
2.根据权利要求1所述的方法,其特征在于,在利用分布式计算框架中的预处理节点并行地对所述原始增量数据文件进行预处理之前,还包括:
判断当前是否存在待处理的原始增量数据文件;
若判断结果为是,则利用分布式计算框架中的预处理节点并行地对所述原始增量数据文件进行预处理;
若判断结果为否,则等待下次轮询。
3.根据权利要求2所述的方法,其特征在于,在判断当前是否存在待处理的原始增量数据文件之前,还包括:
利用分布式计算框架中主控节点,启动主控制程序,对多个数据同步进程进行初始化。
4.根据权利要求1所述的方法,其特征在于,并行地调用表结构解析工具将所述多个中间增量数据文件进行表结构解析,得到本批次的临时增量表,包括:
将所述多个中间增量数据文件并行地导入中间数据库;
利用已有的外部配置库,对导入中间数据库中的多个中间增量数据文件进行表结构解析,得到本批次的临时增量表。
5.根据权利要求4所述的方法,其特征在于,所述中间数据库为Postgresql数据库,所述外部配置库为Redis配置库。
6.根据权利要求1所述的方法,其特征在于,在得到多个目标增量表之后,还包括:
将所述多个目标增量表存储至缓存中;
在利用分布式计算框架中的同步节点并行地将所述多个目标增量表同步至指定的数据仓库中后,还包括:将缓存中存储的目标增量表清除。
7.一种增量数据同步系统,其特征在于,包括:多台计算机设备;所述多台计算机设备上部署有分布式计算框架,所述分布式计算框架包括:主控节点、解析节点、预处理节点、合并节点以及同步节点;
所述主控节点,用于利用所述解析节点并行地对源数据库在指定时段内产生的日志数据进行解析,以获取多个原始增量数据文件;
利用所述预处理节点并行地对所述原始增量数据文件进行预处理,生成多个中间增量数据文件;
并行地调用表结构解析工具将所述多个中间增量数量文件进行表结构解析,得到本批次的临时增量表,本批次增量数据包括至少一个中间增量数据文件;
利用所述合并节点并行地对本批次的临时增量表与前一批次的临时增量表进行合并处理,得到多个目标增量表;
利用所述同步节点并行地将所述多个目标增量表同步至指定的数据仓库中。
8.根据权利要求7所述的方法,其特征在于,所述主控节点可动态配置解析节点、预处理节点、合并节点以及同步节点中的进程的数量进行数据处理。
9.一种主控设备,其特征在于,所述主控设备上部署有分布式计算框架中的主控节点,所述分布式计算框架还包括解析节点、预处理节点、合并节点以及同步节点;所述主控设备包括:一个或多个处理器以及一个或多个存储计算机程序的存储器;所述一个或多个处理器,用于执行所述计算机程序,以用于:
利用所述解析节点并行地对源数据库在指定时段内产生的日志数据进行解析,以获取多个原始增量数据文件;
利用所述预处理节点并行地对所述原始增量数据文件进行预处理,生成多个中间增量数据文件;
并行地调用表结构解析工具将所述多个中间增量数量文件进行表结构解析,得到本批次的临时增量表,本批次增量数据包括至少一个中间增量数据文件;
利用所述合并节点并行地对本批次的临时增量表与前一批次的临时增量表进行合并处理,得到多个目标增量表;
利用所述同步节点并行地将所述多个目标增量表同步至指定的数据仓库中。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器执行权利要求1-6任一所述方法中的步骤。
CN201910295392.1A 2019-04-12 2019-04-12 增量数据同步方法、系统、设备及存储介质 Pending CN110175209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910295392.1A CN110175209A (zh) 2019-04-12 2019-04-12 增量数据同步方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910295392.1A CN110175209A (zh) 2019-04-12 2019-04-12 增量数据同步方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110175209A true CN110175209A (zh) 2019-08-27

Family

ID=67689969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910295392.1A Pending CN110175209A (zh) 2019-04-12 2019-04-12 增量数据同步方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110175209A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111158887A (zh) * 2019-12-31 2020-05-15 中国银行股份有限公司 一种集中式数据分布式处理方法及装置
CN111241193A (zh) * 2019-12-31 2020-06-05 武汉达梦数据库有限公司 一种基于日志解析的数据库添加列同步方法和装置
CN111984728A (zh) * 2020-08-14 2020-11-24 北京人大金仓信息技术股份有限公司 异构数据库数据同步方法、装置、介质和电子设备
CN112765265A (zh) * 2020-12-30 2021-05-07 杭州贝嘟科技有限公司 数据同步方法、装置、计算机设备和可读存储介质
CN113010490A (zh) * 2021-02-22 2021-06-22 北京字节跳动网络技术有限公司 数据存储方法、装置和电子设备
CN113127549A (zh) * 2019-12-31 2021-07-16 奇安信科技集团股份有限公司 增量数据的同步方法、装置、计算机设备和存储介质
CN113220707A (zh) * 2021-04-26 2021-08-06 深圳市云网万店科技有限公司 实时合并多种业务指标数据的方法、装置和计算机设备
CN113704347A (zh) * 2020-05-21 2021-11-26 深圳法大大网络科技有限公司 多数据中心的数据处理方法及装置
CN113760885A (zh) * 2020-10-23 2021-12-07 北京沃东天骏信息技术有限公司 增量日志处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102325170A (zh) * 2011-08-24 2012-01-18 无锡中科方德软件有限公司 一种数据抽取和数据集成方法及其系统
WO2013153518A3 (en) * 2012-04-10 2014-01-23 The Concentrate Manufacturing Company Of Ireland Hot side management of thermoelectric cooling module
CN104516989A (zh) * 2015-01-26 2015-04-15 北京京东尚科信息技术有限公司 增量数据推送系统和方法
CN105243067A (zh) * 2014-07-07 2016-01-13 北京明略软件系统有限公司 一种实现实时增量同步数据的方法及装置
CN107748752A (zh) * 2017-09-05 2018-03-02 新智云数据服务有限公司 一种数据处理方法及装置
CN108804237A (zh) * 2017-05-05 2018-11-13 北京京东尚科信息技术有限公司 数据实时统计方法、装置、存储介质和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102325170A (zh) * 2011-08-24 2012-01-18 无锡中科方德软件有限公司 一种数据抽取和数据集成方法及其系统
WO2013153518A3 (en) * 2012-04-10 2014-01-23 The Concentrate Manufacturing Company Of Ireland Hot side management of thermoelectric cooling module
CN105243067A (zh) * 2014-07-07 2016-01-13 北京明略软件系统有限公司 一种实现实时增量同步数据的方法及装置
CN104516989A (zh) * 2015-01-26 2015-04-15 北京京东尚科信息技术有限公司 增量数据推送系统和方法
CN108804237A (zh) * 2017-05-05 2018-11-13 北京京东尚科信息技术有限公司 数据实时统计方法、装置、存储介质和电子设备
CN107748752A (zh) * 2017-09-05 2018-03-02 新智云数据服务有限公司 一种数据处理方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111158887A (zh) * 2019-12-31 2020-05-15 中国银行股份有限公司 一种集中式数据分布式处理方法及装置
CN111241193A (zh) * 2019-12-31 2020-06-05 武汉达梦数据库有限公司 一种基于日志解析的数据库添加列同步方法和装置
CN111241193B (zh) * 2019-12-31 2021-04-27 武汉达梦数据库股份有限公司 一种基于日志解析的数据库添加列同步方法和装置
CN113127549A (zh) * 2019-12-31 2021-07-16 奇安信科技集团股份有限公司 增量数据的同步方法、装置、计算机设备和存储介质
CN111158887B (zh) * 2019-12-31 2023-11-17 中国银行股份有限公司 一种集中式数据分布式处理方法及装置
CN113127549B (zh) * 2019-12-31 2024-05-24 奇安信科技集团股份有限公司 增量数据的同步方法、装置、计算机设备和存储介质
CN113704347A (zh) * 2020-05-21 2021-11-26 深圳法大大网络科技有限公司 多数据中心的数据处理方法及装置
CN111984728A (zh) * 2020-08-14 2020-11-24 北京人大金仓信息技术股份有限公司 异构数据库数据同步方法、装置、介质和电子设备
CN113760885A (zh) * 2020-10-23 2021-12-07 北京沃东天骏信息技术有限公司 增量日志处理方法、装置、电子设备及存储介质
CN112765265A (zh) * 2020-12-30 2021-05-07 杭州贝嘟科技有限公司 数据同步方法、装置、计算机设备和可读存储介质
CN113010490A (zh) * 2021-02-22 2021-06-22 北京字节跳动网络技术有限公司 数据存储方法、装置和电子设备
CN113220707A (zh) * 2021-04-26 2021-08-06 深圳市云网万店科技有限公司 实时合并多种业务指标数据的方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN110175209A (zh) 增量数据同步方法、系统、设备及存储介质
CN109739929B (zh) 数据同步方法、装置及系统
CN110334070A (zh) 数据处理方法、系统、设备及存储介质
CN105373448B (zh) 数据库中故障数据的恢复方法和系统
US9276980B2 (en) Data synchronization based on file system activities
CN110019240A (zh) 一种业务数据交互方法、装置及系统
CN106776783B (zh) 非结构化数据存储管理方法和系统
CN105956123A (zh) 基于局部更新软件的数据处理方法及装置
CN104317928A (zh) 一种基于分布式数据库的业务etl方法及系统
CN104765840A (zh) 一种大数据分布式存储的方法和装置
CN103365971A (zh) 基于云计算的海量数据访问处理系统
CN104794190A (zh) 一种大数据有效存储的方法和装置
CN108874828A (zh) 数据迁移的方法和装置
CN102779138A (zh) 实时数据的硬盘存取方法
CN104750855A (zh) 一种大数据存储优化方法和装置
CN112559475A (zh) 数据实时捕获和传输方法及系统
CN113760922A (zh) 一种业务数据处理系统、方法、服务器和存储介质
CN111680017A (zh) 一种数据同步的方法及装置
CN102982171A (zh) 一种数据库同步方法
US11704363B2 (en) System and method for generating highly scalable temporal graph database
CN102737082A (zh) 一种动态更新文稿数据索引的方法和系统
CN102999554A (zh) 业务数据处理方法和装置
CN113377872B (zh) 在线系统数据在大数据中心的离线同步方法、装置及设备
CN109686017A (zh) 一种税控设备管理方法及系统
CN114897457A (zh) 基于订单的仓库信息处理方法、设备和可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190827

RJ01 Rejection of invention patent application after publication