CN109446262A - 一种数据汇聚方法及装置 - Google Patents

一种数据汇聚方法及装置 Download PDF

Info

Publication number
CN109446262A
CN109446262A CN201811292146.2A CN201811292146A CN109446262A CN 109446262 A CN109446262 A CN 109446262A CN 201811292146 A CN201811292146 A CN 201811292146A CN 109446262 A CN109446262 A CN 109446262A
Authority
CN
China
Prior art keywords
data
query statement
source
journal file
target database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811292146.2A
Other languages
English (en)
Other versions
CN109446262B (zh
Inventor
王双
刘俊良
王纯斌
赵神州
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sefon Software Co Ltd
Original Assignee
Chengdu Sefon Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sefon Software Co Ltd filed Critical Chengdu Sefon Software Co Ltd
Priority to CN201811292146.2A priority Critical patent/CN109446262B/zh
Publication of CN109446262A publication Critical patent/CN109446262A/zh
Application granted granted Critical
Publication of CN109446262B publication Critical patent/CN109446262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据汇聚方法及装置。方法包括:抽取源数据库对应的至少一个日志文件,所述日志文件中包括第一标识;分别对每个日志文件进行解析,获得每个日志文件中的查询语句;根据所述查询语句对目标数据库进行对应的数据汇聚处理,并将所述查询语句对应的日志文件中的第一标识修改为第二标识。装置用于执行上述方法。本发明实施例通过抽取源数据库中的带有第一标识的日志文件,并对日志文件进行解析获得查询语句,根据查询语句对目标数据库进行数据汇聚处理,能够从日志文件中准确地获取到新的数据,并对目标数据库进行数据汇聚操作。

Description

一种数据汇聚方法及装置
技术领域
本发明涉及大数据处理技术领域,具体而言,涉及一种数据汇聚方法及装置。
背景技术
互联网经过近十多年的发展,累计了海量的数据。数据的价值尤其显得突出,无论政府还是企业均深入数据挖掘领域,期待从数据中挖掘大量的价值。
在数据挖掘领域,在IT系统的日常运行中,日复一日的累计数据,最重要的数据汇聚就是一个突出的问题,在IT建设中,经常会碰到不合理的数据库设计,导致数据汇聚无法正常汇聚。
发明内容
有鉴于此,本发明实施例的目的在于提供一种数据汇聚方法及装置,以解决上述技术问题。
第一方面,本发明实施例提供了一种数据汇聚方法,包括:
抽取源数据库对应的至少一个日志文件,所述日志文件中包括第一标识;
分别对每个日志文件进行解析,获得每个日志文件中的查询语句;
根据所述查询语句对目标数据库进行对应的数据汇聚处理,并将所述查询语句对应的日志文件中的第一标识修改为第二标识。
进一步地,所述根据所述查询语句对目标数据库进行对应的数据汇聚处理,包括:
根据所述查询语句获取对应的待操作的表;
若所述待操作的表中存在抽取进度文件,则根据所述抽取进度文件对所述待操作的表中的源数据进行抽取;
若所述待操作的表中不存在抽取进度文件,则根据配置信息对所述待操作的表中的源数据进行抽取;
根据所述查询语句以及对应抽取获得的源数据对所述目标数据库进行数据汇聚处理。
进一步地,所述查询语句包括新增语句、修改语句和删除语句;相应的,所述根据所述查询语句以及对应抽取获得的源数据对所述目标数据库进行数据汇聚处理,包括:
若所述查询语句为新增语句,则将所述查询语句对应的源数据库中的源数据添加到所述目标数据库中;
若所述查询语句为修改语句,则根据所述查询语句从源数据库中获取对应的修改后的源数据,并将修改后的源数据添加到所述目标数据库中;
若所述查询语句为删除语句,则获取被删除的源数据信息,并根据所述被删除的源数据信息对所述目标数据库中的数据进行删除。
进一步地,所述方法,还包括:
定期获取所述源数据库对应的缓存组件中的冷数据,并将所述冷数据迁移至预设的文件中,其中,状态在预设时间段内未改变的数据为冷数据。
进一步地,在根据所述查询语句对目标数据库进行对应的数据汇聚处理之后,所述方法,还包括:
更新所述目标数据库中的系统变更编号节点和指针ID节点。
第二方面,本发明实施例提供了一种数据汇聚装置,包括:
抽取模块,用于抽取源数据库对应的至少一个日志文件,所述日志文件中包括第一标识;
解析模块,用于分别对每个日志文件进行解析,获得每个日志文件中的查询语句;
汇聚模块,用于根据所述查询语句对目标数据库进行对应的数据汇聚处理,并将所述查询语句对应的日志文件中的第一标识修改为第二标识。
进一步地,所述汇聚模块,具体用于:
根据所述查询语句获取对应的待操作的表;
若所述待操作的表中存在抽取进度文件,则根据所述抽取进度文件对所述待操作的表中的源数据进行抽取;
若所述待操作的表中不存在抽取进度文件,则根据配置信息对所述待操作的表中的源数据进行抽取;
根据所述查询语句以及对应抽取获得的源数据对所述目标数据库进行数据汇聚处理。
进一步地,所述查询语句包括新增语句、修改语句和删除语句;相应的,所述汇聚模块,具体用于:
若所述查询语句为修改语句,则根据所述查询语句从源数据库中获取对应的修改后的源数据,并将修改后的源数据添加到所述目标数据库中;
若所述查询语句为删除语句,则获取被删除的源数据信息,并根据所述被删除的源数据信息对所述目标数据库中的数据进行删除。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法步骤。
本发明实施例通过抽取源数据库中的带有第一标识的日志文件,并对日志文件进行解析获得查询语句,根据查询语句对目标数据库进行数据汇聚处理,能够从日志文件中准确地获取到新的数据,并对目标数据库进行数据汇聚操作。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种数据汇聚方法流程示意图;
图2为本发明实施例提供的抽取线程信令交互图;
图3为本发明实施例提供的维护线程信令交互图;
图4为本发明实施例提供的服务进程信令交互图;
图5为本发明实施例提供的数据汇聚装置结构示意图;
图6为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1为本发明实施例提供的一种数据汇聚方法流程示意图,如图1所示,该方法包括:
步骤101:抽取源数据库对应的至少一个日志文件,所述日志文件中包括第一标识。
在具体的实施过程中,每个源数据库都有其对应的日志文件,用户对该源数据库做的任何操作都会记录在日志文件中,应当说明的是,与现有的日志文件相比,本发明实施例中的日志文件多了一个操作标识,该操作标识可以为第一标识或第二标识,如果日志文件包括的是第一标识,则说明该日志文件中存在一些源数据没有被添加到目标数据库中。相应的,如果日志文件中包括第二标识,则说明该日志文件中的源数据都被添加到目标数据库中。数据汇聚装置抽取源数据库的日志文件,应当说明的是,抽取的日志文件中包括第一标识,即该日志文件中有新的源数据产生。
步骤102:分别对每个日志文件进行解析,获得每个日志文件中的查询语句。
在具体的实施过程中,数据汇聚装置在获取到日志文件后,分别对每个日志文件进行解析,通过解析从每个日志文件中获取查询语句。其中,查询语句可以为新增语句、修改语句和删除语句,新增语句即说明该源数据库中新加入了源数据;修改语句即说明该源数据库中有源数据被修改了;删除语句即说明该源数据库中的某个源数据被删除了。具体增加、修改或删除了哪个表中的哪条数据均可以通过查询语句得到。
步骤103:根据所述查询语句对目标数据库进行对应的数据汇聚处理,并将所述查询语句对应的日志文件中的第一标识修改为第二标识。
在具体的实施过程中,数据汇聚装置根据查询语句对目标数据库进行对应的数据汇聚处理,如果查询语句为新增语句,则将新增的数据添加到目标数据库中,如果查询语句为修改语句,则将修改后的源数据添加到目标数据库中国,如果查询语句为删除,则将目标数据库中对应的源数据进行删除处理。应当说明的是,源数据库可以有多个,目标数据库也可以有多个,在操作之前,应当建立源数据库和目标数据库之间的对应关系。操作完成后,将查询语句对应的日志文件中的第一标识修改为第二标识。应当说明的是,如果该日志文件中有新的数据产生,则应当将第二标识再次修改为第一标识,以表示该日志文件中有新的数据产生。
本发明实施例通过抽取源数据库中的带有第一标识的日志文件,并对日志文件进行解析获得查询语句,根据查询语句对目标数据库进行数据汇聚处理,能够从日志文件中准确地获取到新的数据,并对目标数据库进行数据汇聚操作。
在上述实施例的基础上,所述根据所述查询语句对目标数据库进行对应的数据汇聚处理,包括:
根据所述查询语句获取对应的待操作的表;查询语句中包括了对应的待操作的表,还可以包括被操作的源数据以及操作类型;可以理解的是,操作类型即为新增、修改、删除等操作。
若所述待操作的表中存在抽取进度文件,则根据所述抽取进度文件对所述待操作的表中的源数据进行抽取;抽取进度文件用来表示当前时刻数据抽取到了待操作的表中的哪一行,从而能够保证在抽取的过程中不会丢数据,也不会重复抽取数据。
若所述待操作的表中不存在抽取进度文件,则根据配置信息对所述待操作的表中的源数据进行抽取;但是,前提是全量抽取的起始位置应当包含已经存入目标数据库中的。
根据所述查询语句以及对应抽取获得的源数据对所述目标数据库进行数据汇聚处理。
在具体的实施过程中,在抽取得到源数据之后,根据源数据和该源数据对应的查询语句对目标数据库进行数据汇聚处理。
本发明实施例通过利用抽取进度文件对待操作的表进行抽取,一方面保证抽取过程中不会丢数据,另一方面,保证了抽取过程中不重复抽取。
在上述实施例的基础上,所述查询语句包括新增语句、修改语句和删除语句;相应的,所述根据所述查询语句以及对应抽取获得的源数据对所述目标数据库进行数据汇聚处理,包括:
若所述查询语句为新增语句,则将所述查询语句对应的源数据库中的源数据添加到所述目标数据库中;如果查询语句为新增语句,则说明源数据库中加入了新的源数据,此时便需要将新增加的源数据添加到对应的目标数据库中。
若所述查询语句为修改语句,则根据所述查询语句从源数据库中获取对应的修改后的源数据,并将修改后的源数据添加到所述目标数据库中;如果查询语句为修改语句,则说明源数据库中的源数据被修改了,此时可以获取修改后的源数据,并将该修改后的源数据重新加入到目标数据库中。应当说明的是,还可以将目标数据库中的修改后的源数据对应的数据删除,以防止目标数据库中存在无效的数据。还可以将修改后的源数据直接替换目标数据库中已存在的数据。本发明实施例对此不作具体限定。
若所述查询语句为删除语句,则获取被删除的源数据信息,并根据所述被删除的源数据信息对所述目标数据库中的数据进行删除;如果查询语句为删除语句,则通过查询语句获知源数据信息,其中,源数据信息中包括了哪个表的哪条数据,然后根据源数据信息从目标数据库中找到对应的数据并删除。
本发明实施例通过抽取源数据库中的带有第一标识的日志文件,并对日志文件进行解析获得查询语句,根据查询语句对目标数据库进行数据汇聚处理,能够从日志文件中准确地获取到新的数据,并对目标数据库进行数据汇聚操作。
在上述实施例的基础上,所述方法,还包括:
定期获取所述源数据库对应的缓存组件中的冷数据,并将所述冷数据迁移至预设的文件中,其中,状态在预设时间段内未改变的数据为冷数据。
在具体的实施过程中,数据汇聚装置可以定期获取源数据库对应的缓存组件中的冷数据,所谓冷数据是指预设时间段之前的状态数据,该数据不经常被调用,其中,数据汇聚装置获取冷数据的周期可以根据实际情况进行调整,且判定为冷数据的预设时间段也可以根据实际情况进行设定。
本发明实施例通过定期从缓存组件中清除冷数据,从而保证了缓存组件中不会被冷数据过多占用,降低了缓存组件的压力。
在上述实施例的基础上,在根据所述查询语句对目标数据库进行对应的数据汇聚处理之后,所述方法,还包括:
更新所述目标数据库中的系统变更编号节点和指针ID节点。
在具体的实施过程中,在完成对目标数据库的数据汇聚操作后,更新目标数据库中的系统变更编号节点,即SCN节点,以及更新指针ID节点,即RS_ID节点。从而确保目标数据库能够过滤掉已经同步的数据。
图2为本发明实施例提供的抽取线程信令交互图,如图2所示,主要涉及到源数据库、抽取线程、目标数据库;
步骤201:开启日志挖掘;可以定期进行日志抽取挖掘,当抽取周期到来时,开启日志挖掘的线程;使用的挖掘模式可以为可持续挖掘,字典使用在线字典方式。
步骤202:JDBC挂载连接;通过JDBC协议将源数据库与抽取线程进行连接;将JDBC挂载的数据可持续的进行按照表过滤到每个表处理线程当中去执行。
步骤203:按表取源数据;通过每个表的抽取进行文件进行数据增量抽取,如果所有表均无进度文件,则以配置为准,可设置全量抽取,但是前提是全量抽取的起始位置一定要包含在已存档日志当中去。
步骤204:存入目标数据库;在抽取到源数据后,将源数据存入到目标数据库中。
应当说明的是,抽取线程在将源数据写入到目标数据库时,根据配置的表进行数据分片写入文件,并且,抽取线程维护每个表文件的文件路径,以及维护每个表的抽取进度和索引数据。
在存储到目标数据库之前,需要对配置参数进行设置,主要有:源数据库/目的数据库的表名、源数据库/目标数据库的数据库信息、抽取数据和读写进程的相关参数。
还应当说明的是,在抽取的过程中若出现异常情况,则根据下述异常处理方式进行处理:
1、抽取端异常出错时,重新启动以抽取进度文件为准,会保证数据续传;
2、文件读写到数据库出错时,可能是线程资源出现紧张以及IO操作出现问题,那么此时,重新启动也可实现数据续传;
3、当读取文件出错时,会将该文件复制到每个表对应的一个error文件中,下次重启可以将该error文件复制到data目录中,重启启动。
图3为本发明实施例提供的维护线程信令交互图,如图3所示,包括源数据库、维护线程、文件、缓存组件;
步骤301:获取分片索引;维护线程从缓存组件中获取可以淘汰的分片索引;
步骤302:淘汰文件;维护线程根据分片索引从文件中获取淘汰文件,并将淘汰文件从文件中删除;
步骤303:生成字典;维护线程每天固定时段生成字典,并将生成的字典发送至源数据库中,以避免数据字典被删。
另外,如果分片索引列表过长,可能要清理;但是在不分表模式下,分片索引列表不会太长,可一直保存。
图4为本发明实施例提供的服务进程信令交互图,如图4所示,涉及目标数据库、服务监控线程、数据服务线程和缓存组件或文件;包括:
步骤401:发送通信请求;目标数据库向服务监控线程发送通信请求;
步骤402:启动服务线程建立连接;服务监控线程建立目标服务器与数据服务线程的连接;
步骤403:发送文件索引;目标数据库向数据服务线程发送文件索引;
步骤404:获取索引数据;数据服务线程根据文件索引从缓存组件或文件中获取对应的数据;
步骤405:发送数据;数据服务线程将获取的数据发送给至目标服务器。
图5为本发明实施例提供的数据汇聚装置结构示意图,如图5所示,该装置包括:抽取模块501、解析模块502和汇聚模块503,其中:
抽取模块501用于抽取源数据库对应的至少一个日志文件,所述日志文件中包括第一标识;解析模块502用于分别对每个日志文件进行解析,获得每个日志文件中的查询语句;汇聚模块503用于根据所述查询语句对目标数据库进行对应的数据汇聚处理,并将所述查询语句对应的日志文件中的第一标识修改为第二标识。
在上述实施例的基础上,所述汇聚模块,具体用于:
根据所述查询语句获取对应的待操作的表;
若所述待操作的表中存在抽取进度文件,则根据所述抽取进度文件对所述待操作的表中的源数据进行抽取;
若所述待操作的表中不存在抽取进度文件,则根据配置信息对所述待操作的表中的源数据进行抽取;
根据所述查询语句以及对应抽取获得的源数据对所述目标数据库进行数据汇聚处理。
在上述实施例的基础上,所述查询语句包括新增语句、修改语句和删除语句;相应的,所述汇聚模块,具体用于:
若所述查询语句为修改语句,则根据所述查询语句从源数据库中获取对应的修改后的源数据,并将修改后的源数据添加到所述目标数据库中;
若所述查询语句为删除语句,则获取被删除的源数据信息,并根据所述被删除的源数据信息对所述目标数据库中的数据进行删除。
在上述实施例的基础上,所述装置,还包括:
迁移模块,用于定期获取所述源数据库对应的缓存组件中的冷数据,并将所述冷数据迁移至预设的文件中,其中,状态在预设时间段内未改变的数据为冷数据。
在上述实施例的基础上,所述装置,还包括:
更新模块,用于更新所述目标数据库中的系统变更编号节点和指针ID节点。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本发明实施例通过抽取源数据库中的带有第一标识的日志文件,并对日志文件进行解析获得查询语句,根据查询语句对目标数据库进行数据汇聚处理,能够从日志文件中准确地获取到新的数据,并对目标数据库进行数据汇聚操作。
图6为本发明实施例提供的电子设备实体结构示意图,如图6所示,所述电子设备,包括:处理器(processor)601、存储器(memory)602和总线603;其中,
所述处理器601和存储器602通过所述总线603完成相互间的通信;
所述处理器601用于调用所述存储器602中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:抽取源数据库对应的至少一个日志文件,所述日志文件中包括第一标识;分别对每个日志文件进行解析,获得每个日志文件中的查询语句;根据所述查询语句对目标数据库进行对应的数据汇聚处理,并将所述查询语句对应的日志文件中的第一标识修改为第二标识。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:抽取源数据库对应的至少一个日志文件,所述日志文件中包括第一标识;分别对每个日志文件进行解析,获得每个日志文件中的查询语句;根据所述查询语句对目标数据库进行对应的数据汇聚处理,并将所述查询语句对应的日志文件中的第一标识修改为第二标识。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:抽取源数据库对应的至少一个日志文件,所述日志文件中包括第一标识;分别对每个日志文件进行解析,获得每个日志文件中的查询语句;根据所述查询语句对目标数据库进行对应的数据汇聚处理,并将所述查询语句对应的日志文件中的第一标识修改为第二标识。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种数据汇聚方法,其特征在于,包括:
抽取源数据库对应的至少一个日志文件,所述日志文件中包括第一标识;
分别对每个日志文件进行解析,获得每个日志文件中的查询语句;
根据所述查询语句对目标数据库进行对应的数据汇聚处理,并将所述查询语句对应的日志文件中的第一标识修改为第二标识。
2.根据权利要求1所述的方法,其特征在于,所述根据所述查询语句对目标数据库进行对应的数据汇聚处理,包括:
根据所述查询语句获取对应的待操作的表;
若所述待操作的表中存在抽取进度文件,则根据所述抽取进度文件对所述待操作的表中的源数据进行抽取;
若所述待操作的表中不存在抽取进度文件,则根据配置信息对所述待操作的表中的源数据进行抽取;
根据所述查询语句以及对应抽取获得的源数据对所述目标数据库进行数据汇聚处理。
3.根据权利要求2所述的方法,其特征在于,所述查询语句包括新增语句、修改语句和删除语句;相应的,所述根据所述查询语句以及对应抽取获得的源数据对所述目标数据库进行数据汇聚处理,包括:
若所述查询语句为新增语句,则将所述查询语句对应的源数据库中的源数据添加到所述目标数据库中;
若所述查询语句为修改语句,则根据所述查询语句从源数据库中获取对应的修改后的源数据,并将修改后的源数据添加到所述目标数据库中;
若所述查询语句为删除语句,则获取被删除的源数据信息,并根据所述被删除的源数据信息对所述目标数据库中的数据进行删除。
4.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
定期获取所述源数据库对应的缓存组件中的冷数据,并将所述冷数据迁移至预设的文件中,其中,状态在预设时间段内未改变的数据为冷数据。
5.根据权利要求1-4任一项所述的方法,其特征在于,在根据所述查询语句对目标数据库进行对应的数据汇聚处理之后,所述方法,还包括:
更新所述目标数据库中的系统变更编号节点和指针ID节点。
6.一种数据汇聚装置,其特征在于,包括:
抽取模块,用于抽取源数据库对应的至少一个日志文件,所述日志文件中包括第一标识;
解析模块,用于分别对每个日志文件进行解析,获得每个日志文件中的查询语句;
汇聚模块,用于根据所述查询语句对目标数据库进行对应的数据汇聚处理,并将所述查询语句对应的日志文件中的第一标识修改为第二标识。
7.根据权利要求6所述的装置,其特征在于,所述汇聚模块,具体用于:
根据所述查询语句获取对应的待操作的表;
若所述待操作的表中存在抽取进度文件,则根据所述抽取进度文件对所述待操作的表中的源数据进行抽取;
若所述待操作的表中不存在抽取进度文件,则根据配置信息对所述待操作的表中的源数据进行抽取;
根据所述查询语句以及对应抽取获得的源数据对所述目标数据库进行数据汇聚处理。
8.根据权利要求7所述的装置,其特征在于,所述查询语句包括新增语句、修改语句和删除语句;相应的,所述汇聚模块,具体用于:
若所述查询语句为修改语句,则根据所述查询语句从源数据库中获取对应的修改后的源数据,并将修改后的源数据添加到所述目标数据库中;
若所述查询语句为删除语句,则获取被删除的源数据信息,并根据所述被删除的源数据信息对所述目标数据库中的数据进行删除。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-5任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1-5任一项所述的方法。
CN201811292146.2A 2018-10-31 2018-10-31 一种数据汇聚方法及装置 Active CN109446262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811292146.2A CN109446262B (zh) 2018-10-31 2018-10-31 一种数据汇聚方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811292146.2A CN109446262B (zh) 2018-10-31 2018-10-31 一种数据汇聚方法及装置

Publications (2)

Publication Number Publication Date
CN109446262A true CN109446262A (zh) 2019-03-08
CN109446262B CN109446262B (zh) 2021-10-08

Family

ID=65549585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811292146.2A Active CN109446262B (zh) 2018-10-31 2018-10-31 一种数据汇聚方法及装置

Country Status (1)

Country Link
CN (1) CN109446262B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079391A (zh) * 2019-12-31 2020-04-28 恩亿科(北京)数据科技有限公司 一种报表的生成方法及装置
CN111241125A (zh) * 2020-01-08 2020-06-05 成都嗨学洛子教育科技有限公司 一种记录操作日志的方法、装置、电子设备和存储介质
CN113094393A (zh) * 2021-03-16 2021-07-09 杭州数梦工场科技有限公司 数据汇聚方法及装置、电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183088B2 (en) * 2010-03-31 2015-11-10 Salesforce.Com, Inc. Reducing database downtime
CN106682225A (zh) * 2017-01-04 2017-05-17 成都四方伟业软件股份有限公司 一种大数据的汇集存储方法与系统
CN107341212A (zh) * 2017-06-26 2017-11-10 努比亚技术有限公司 一种缓存更新方法及设备
CN107506451A (zh) * 2017-08-28 2017-12-22 泰康保险集团股份有限公司 用于数据交互的异常信息监控方法及装置
CN108052681A (zh) * 2018-01-12 2018-05-18 毛彬 一种关系型数据库间结构化数据的同步方法及系统
CN108388615A (zh) * 2018-02-09 2018-08-10 杭州数梦工场科技有限公司 一种数据交换方法、系统以及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183088B2 (en) * 2010-03-31 2015-11-10 Salesforce.Com, Inc. Reducing database downtime
CN106682225A (zh) * 2017-01-04 2017-05-17 成都四方伟业软件股份有限公司 一种大数据的汇集存储方法与系统
CN107341212A (zh) * 2017-06-26 2017-11-10 努比亚技术有限公司 一种缓存更新方法及设备
CN107506451A (zh) * 2017-08-28 2017-12-22 泰康保险集团股份有限公司 用于数据交互的异常信息监控方法及装置
CN108052681A (zh) * 2018-01-12 2018-05-18 毛彬 一种关系型数据库间结构化数据的同步方法及系统
CN108388615A (zh) * 2018-02-09 2018-08-10 杭州数梦工场科技有限公司 一种数据交换方法、系统以及电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079391A (zh) * 2019-12-31 2020-04-28 恩亿科(北京)数据科技有限公司 一种报表的生成方法及装置
CN111079391B (zh) * 2019-12-31 2024-01-19 恩亿科(北京)数据科技有限公司 一种报表的生成方法及装置
CN111241125A (zh) * 2020-01-08 2020-06-05 成都嗨学洛子教育科技有限公司 一种记录操作日志的方法、装置、电子设备和存储介质
CN111241125B (zh) * 2020-01-08 2023-06-02 北京数培通网络科技有限公司 一种记录操作日志的方法、装置、电子设备和存储介质
CN113094393A (zh) * 2021-03-16 2021-07-09 杭州数梦工场科技有限公司 数据汇聚方法及装置、电子设备
CN113094393B (zh) * 2021-03-16 2023-07-14 杭州数梦工场科技有限公司 数据汇聚方法及装置、电子设备

Also Published As

Publication number Publication date
CN109446262B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN107660283B (zh) 用于在日志分析系统中实现日志解析器的方法和系统
CN104182898B (zh) 银行系统对夜模式期间发生的联机交易进行补录的方法
CN109669983A (zh) 可视化多数据源etl工具
CN103823797A (zh) 基于ftp协议的行业数据库数据实时同步系统
CN104252452A (zh) 数据管理的方法及装置
CN107122360A (zh) 数据迁移系统和方法
CN107122355A (zh) 数据迁移系统和方法
US11487714B2 (en) Data replication in a data analysis system
CN102193991B (zh) 基于oltp的数据修改方法、系统及图形数据库服务器
CN109446262A (zh) 一种数据汇聚方法及装置
CN110134705A (zh) 一种数据查询方法、缓存服务器及终端
CN107122361A (zh) 数据迁移系统和方法
CN106933703A (zh) 一种数据库数据备份的方法、装置及电子设备
US10089334B2 (en) Grouping of database objects
CN104461531B (zh) 一种报表系统自定义函数的实现方法
Günther et al. Mining activity clusters from low-level event logs
CN113420026B (zh) 数据库表结构变更方法、装置、设备及存储介质
CN108536745A (zh) 基于Shell的数据表提取方法、终端、设备及存储介质
CN108647357A (zh) 数据查询的方法及装置
CN110019469A (zh) 分布式数据库数据处理方法、装置、存储介质及电子装置
CN106802905A (zh) 一种同构plm系统的协同数据交换方法
CN105787058A (zh) 一种用户标签系统及基于用户标签系统的数据推送系统
CN112835879A (zh) 一种数据抽取方法及装置
US11204910B2 (en) Artifact correlation between domains
CN110321142A (zh) 一种接口文档更新方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant