CN112269820A - 一种基于cmsp实现数据批次同步的方法及平台 - Google Patents
一种基于cmsp实现数据批次同步的方法及平台 Download PDFInfo
- Publication number
- CN112269820A CN112269820A CN202011186111.8A CN202011186111A CN112269820A CN 112269820 A CN112269820 A CN 112269820A CN 202011186111 A CN202011186111 A CN 202011186111A CN 112269820 A CN112269820 A CN 112269820A
- Authority
- CN
- China
- Prior art keywords
- data
- batch
- batch number
- topic
- cmsp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000013075 data extraction Methods 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 230000005540 biological transmission Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 4
- 238000013500 data storage Methods 0.000 abstract description 3
- 230000001360 synchronised effect Effects 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于CMSP实现数据批次同步的方法及平台,涉及数据同步技术领域,其实现过程包括:从数据库中抽取数据,抽取时产生一个批次号,将该批次号放入CMSP服务器的批次Topic中,同时,将抽取数据及该数据对应的批次号放入CMSP服务器的数据Topic中;从CMSP服务器的批次Topic中获取批次号,并根据此批次号更新内存中相应表的批次号,从CMSP服务器的数据Topic中获取数据及对应批次号;将内存中的批次号与获取数据的批次号进行对比,判定数据的有效性,并将有效数据写入数据库。本发明通过数据抽取产生数据批次号,实现对数据同步入库的操作和控制,解决了大量过期数据入到数据库、有效数据不能快速入库、大量的过期数据占据了队列资源的问题。
Description
技术领域
本发明涉及数据同步技术领域,具体的说是一种基于CMSP实现数据批次同步的方法及平台。
背景技术
随着云服务和大数据的发展,多源异构海量数据汇聚是当今社会的需要,数据汇聚技术之一就是数据同步。大量的数据如何高效、快速进行数据同步,需要高效的数据传输链路,目前数据传输链路往往都是借用消息中间件,CMSP正是云和大数据时代的一种高性能消息中间件,对外提供高性能、高可靠的消息队列服务,满足大数据实时处理和微服务处理架构。
数据同步在采集到多源的众多表的数据时,传统方式是把数据放入消息队列中,这么多数据包含有效数据和过期数据,过期数据对于目标入库程序是无用的,应该把过期数据快速消费掉或扔掉,快速获取有效数据进行入库。过期数据是由于数据源重新抽取全量或增量数据,导致队列中之前抽取的数据没有处理完,新数据有进入队列中,这些没有处理完的之前数据就称之为过期数据。如果有效数据和过期数据不进行区分,会导致入库不能快速处理有效数据,往往会导致一系列问题:
一是:队列中存在大量的有效数据和过期数据,会导致入库无法区分有效数据和过期数据,只能把过期数据也按有效数据处理,这样会存在大量过期数据入到数据库中,同时也给新数据的如何进入到数据库中带来了困难。
二是:大量的过期数据处理,导致有效数据不能快速的入库,新数据不能及时提供给上层应用。
三是:大量的过期数据,占据了队列资源,一旦队列控制占满,导致新抽取的数据不能进入到队列中。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种基于CMSP实现数据批次同步的方法及平台,旨在提高对有效数据的及时、快速高效的处理。
首先,本发明提供一种基于CMSP实现数据批次同步的方法,解决上述技术问题采用的技术方案如下:
一种基于CMSP实现数据批次同步的方法,其实现包括:
从数据库中抽取数据,抽取时产生一个批次号,将该批次号放入CMSP服务器的批次Topic中,同时,将抽取数据及该数据对应的批次号放入CMSP服务器的数据Topic中;
从CMSP服务器的批次Topic中获取批次号,并根据此批次号更新内存中相应表的批次号,从CMSP服务器的数据Topic中获取数据及对应批次号;
将内存中的批次号与获取数据的批次号进行对比,判定数据的有效性,并将有效数据写入数据库。
可选的,从数据库中抽取数据,抽取的数据可以是全量数据或增量数据。
可选的,当从数据库中重新抽取数据时,再产生一个新批次号,将新批次号放入批次Topic中,同时,将抽取数据及该数据对应的新批次号放入数据Topic中;
从CMSP服务器的批次Topic中获取新批次号,批次号,并根据此新批次号更新内存中相应表的批次号,从CMSP服务器的数据Topic中获取数据及该数据对应的新批次号;
将内存中的新批次号与获取数据的新批次号进行对比判定数据的有效性,并将有效数据写入数据库。
可选的,将内存中的批次号与获取数据的批次号进行对比,
(a)若批次号一致,判定获取数据是有效数据,将获取数据写入数据库中,
(b)若批次号不一致,判定获取数据是过期数据,应该把此数据扔掉或者保存到过期数据文件中进行备份。
可选的,CMSP服务器的批次Topic和数据Topic分别提供数据缓存和数据传输服务。
其次,本发明提供一种基于CMSP实现数据批次同步的平台,解决上述技术问题采用的技术方案如下:
一种基于CMSP实现数据批次同步的平台,其包括:
数据抽取模块,用于抽取数据库中的数据,并产生一个批次号;
批次Topic模块,部署于CMSP服务器,用于保存生成的批次号;
数据Topic模块,部署于CMSP服务器,用于保存抽取数据及该数据对应的批次号;
数据写入模块,用于获取批次Topic模块保存的批次号,并用此批次号更新内存中相应表的批次号,用于获取数据Topic模块保存的数据及该数据对应的批次号,还用于对比内存中的批次号与获取数据的批次号,判定数据的有效性,并将有效数据写入数据库。
可选的,所涉及数据抽取模块从数据库中抽取全量数据或增量数据。
可选的,所涉及数据抽取模块每次从数据库中抽取数据时,都会产生一个批次号,
一方面,数据抽取模块将产生的批次号保存于批次Topic模块,同时,批次Topic模块将该批次号传输至数据写入模块,并更新内存中相应表的批次号;
另一方面,数据抽取模块将抽取的数据和产生的批次号保存于数据Topic模块,同时,数据Topic模块将抽取的数据和产生的批次号传输至数据写入模块;
数据写入模块对比内存中的批次号与获取数据的批次号,来判定数据的有效性,并将有效数据写入数据库。
可选的,对比内存中的批次号与获取数据的批次号,
(a)若新批次号一致,判定获取数据是有效数据,将获取数据写入数据库中,
(b)若新批次号不一致,判定获取数据是过期数据,应该把此数据扔掉或者保存到过期数据文件中进行备份。
可选的,所涉及批次Topic模块和数据Topic模块分别提供数据缓存和数据传输服务。
本发明的一种基于CMSP实现数据批次同步的方法及平台,与现有技术相比具有的有益效果是:
本发明通过数据抽取产生数据批次号,通过CMSP的高效、安全、可靠的传输和缓存能力,实现对数据同步入库的操作和控制,方便过期数据的快速处理,并及时处理有效数据,解决了大量过期数据入到数据库、有效数据不能快速入库、大量的过期数据占据了队列资源的问题,有效地提高有效数据的及时、快速高效的入库问题。
附图说明
附图1是本发明实施例二的流程框图。
附图中各标号信息表示:
1、数据抽取模块,2、批次Topic模块,3、数据Topic模块,4、数据写入模块。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。
实施例一:
参考附图1,本实施例提出一种基于CMSP实现数据批次同步的方法,其实现包括:
从数据库中抽取数据,抽取时产生一个批次号,将该批次号放入CMSP服务器的批次Topic中,同时,将抽取数据及该数据对应的批次号放入CMSP服务器的数据Topic中;
从CMSP服务器的批次Topic中获取批次号,并根据此批次号更新内存中相应表的批次号,从CMSP服务器的数据Topic中获取数据及对应批次号;
将内存中的批次号与获取数据的批次号进行对比,
(a)若批次号一致,判定获取数据是有效数据,将获取数据写入数据库中,
(b)若批次号不一致,判定获取数据是过期数据,应该把此数据扔掉或者保存到过期数据文件中进行备份。
本实施例中,从数据库中抽取数据,抽取的数据可以是全量数据或增量数据。
本实施例中,CMSP服务器的批次Topic和数据Topic分别提供数据缓存和数据传输服务。每次从数据库抽取数据,都会相应的产生一个批次号,通过所产生批次号更新内存中相应表的批次号,并对比内存中的批次号与抽取数据的批次号,根据两次批次号是否一致,判定数据的有效性,进而快速消费掉过期数据,及时处理有效数据。
实施例二:
结合附图1,本实施例提出一种基于CMSP实现数据批次同步的平台,其包括:
数据抽取模块1,用于抽取数据库中的数据,并产生一个批次号;
批次Topic模块2,部署于CMSP服务器,用于保存生成的批次号;
数据Topic模块3,部署于CMSP服务器,用于保存抽取数据及该数据对应的批次号;
数据写入模块4,用于获取批次Topic模块2保存的批次号,并用此批次号更新内存中相应表的批次号,用于获取数据Topic模块3保存的数据及该数据对应的批次号,还用于对比内存中的批次号与获取数据的批次号,
(a)若新批次号一致,判定获取数据是有效数据,将获取数据写入数据库中,
(b)若新批次号不一致,判定获取数据是过期数据,应该把此数据扔掉或者保存到过期数据文件中进行备份。
本实施例中,所涉及数据抽取模块1从数据库中抽取全量数据或增量数据。
本实施例中,所涉及批次Topic模块2和数据Topic模块3分别提供数据缓存和数据传输服务。
数据抽取模块1每次从数据库中抽取数据时,都会产生一个批次号,一方面,数据抽取模块1将产生的批次号保存于批次Topic模块2,同时,批次Topic模块2将该批次号传输至数据写入模块4,并更新内存中相应表的批次号;另一方面,数据抽取模块1将抽取的数据和产生的批次号保存于数据Topic模块3,同时,数据Topic模块3将抽取的数据和产生的批次号传输至数据写入模块4。数据写入模块4对比内存中的批次号与获取数据的批次号,来判定数据的有效性,并将有效数据写入数据库。
综上可知,采用本发明的一种基于CMSP实现数据批次同步的方法及平台,可以实现对数据同步入库的操作和控制,解决大量过期数据入到数据库、有效数据不能快速入库、大量的过期数据占据了队列资源的问题。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。
Claims (10)
1.一种基于CMSP实现数据批次同步的方法,其特征在于,其实现包括:
从数据库中抽取数据,抽取时产生一个批次号,将该批次号放入CMSP服务器的批次Topic中,同时,将抽取数据及该数据对应的批次号放入CMSP服务器的数据Topic中;
从CMSP服务器的批次Topic中获取批次号,并根据此批次号更新内存中相应表的批次号,从CMSP服务器的数据Topic中获取数据及对应批次号;
将内存中的批次号与获取数据的批次号进行对比,判定数据的有效性,并将有效数据写入数据库。
2.根据权利要求1所述的一种基于CMSP实现数据批次同步的方法,其特征在于,从数据库中抽取数据,抽取的数据可以是全量数据或增量数据。
3.根据权利要求1所述的一种基于CMSP实现数据批次同步的方法,其特征在于,当从数据库中重新抽取数据时,再产生一个新批次号,将新批次号放入批次Topic中,同时,将抽取数据及该数据对应的新批次号放入数据Topic中;
从CMSP服务器的批次Topic中获取新批次号,批次号,并根据此新批次号更新内存中相应表的批次号,从CMSP服务器的数据Topic中获取数据及该数据对应的新批次号;
将内存中的新批次号与获取数据的新批次号进行对比判定数据的有效性,并将有效数据写入数据库。
4.根据权利要求1或3所述的一种基于CMSP实现数据批次同步的方法,其特征在于,将内存中的批次号与获取数据的批次号进行对比,
(a)若批次号一致,判定获取数据是有效数据,将获取数据写入数据库中,
(b)若批次号不一致,判定获取数据是过期数据,应该把此数据扔掉或者保存到过期数据文件中进行备份。
5.根据权利要求1所述的一种基于CMSP实现数据批次同步的方法,其特征在于,所述CMSP服务器的批次Topic和数据Topic分别提供数据缓存和数据传输服务。
6.一种基于CMSP实现数据批次同步的平台,其特征在于,其包括:
数据抽取模块,用于抽取数据库中的数据,并产生一个批次号;
批次Topic模块,部署于CMSP服务器,用于保存生成的批次号;
数据Topic模块,部署于CMSP服务器,用于保存抽取数据及该数据对应的批次号;
数据写入模块,用于获取批次Topic模块保存的批次号,并用此批次号更新内存中相应表的批次号,用于获取数据Topic模块保存的数据及该数据对应的批次号,还用于对比内存中的批次号与获取数据的批次号,判定数据的有效性,并将有效数据写入数据库。
7.根据权利要求6所述的一种基于CMSP实现数据批次同步的平台,其特征在于,数据抽取模块从数据库中抽取全量数据或增量数据。
8.根据权利要求6所述的一种基于CMSP实现数据批次同步的平台,其特征在于,所述数据抽取模块每次从数据库中抽取数据时,都会产生一个批次号,
一方面,所述数据抽取模块将产生的批次号保存于批次Topic模块,同时,所述批次Topic模块将该批次号传输至数据写入模块,并更新内存中相应表的批次号;
另一方面,所述数据抽取模块将抽取的数据和产生的批次号保存于数据Topic模块,同时,所述数据Topic模块将抽取的数据和产生的批次号传输至数据写入模块;
所述数据写入模块对比内存中的批次号与获取数据的批次号,来判定数据的有效性,并将有效数据写入数据库。
9.根据权利要求6或8所述的一种基于CMSP实现数据批次同步的平台,其特征在于,对比内存中的批次号与获取数据的批次号,
(a)若新批次号一致,判定获取数据是有效数据,将获取数据写入数据库中,
(b)若新批次号不一致,判定获取数据是过期数据,应该把此数据扔掉或者保存到过期数据文件中进行备份。
10.根据权利要求6所述的一种基于CMSP实现数据批次同步的平台,其特征在于,所述批次Topic模块和数据Topic模块分别提供数据缓存和数据传输服务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011186111.8A CN112269820A (zh) | 2020-10-30 | 2020-10-30 | 一种基于cmsp实现数据批次同步的方法及平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011186111.8A CN112269820A (zh) | 2020-10-30 | 2020-10-30 | 一种基于cmsp实现数据批次同步的方法及平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112269820A true CN112269820A (zh) | 2021-01-26 |
Family
ID=74345117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011186111.8A Pending CN112269820A (zh) | 2020-10-30 | 2020-10-30 | 一种基于cmsp实现数据批次同步的方法及平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112269820A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032379A (zh) * | 2021-03-16 | 2021-06-25 | 广东电网有限责任公司广州供电局 | 面向配网运检多源数据采集的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567495A (zh) * | 2011-12-22 | 2012-07-11 | 国网信息通信有限公司 | 一种海量信息存储系统及实现方法 |
CN110175213A (zh) * | 2019-05-27 | 2019-08-27 | 浪潮软件集团有限公司 | 一种基于SCN方式的Oracle数据库同步系统及方法 |
CN110321359A (zh) * | 2019-07-05 | 2019-10-11 | 浪潮软件集团有限公司 | 一种基于cmsp的空间数据增量更新方法 |
CN110502490A (zh) * | 2019-08-30 | 2019-11-26 | 浪潮软件集团有限公司 | 一种MongoDB数据库数据同步系统及实现方法 |
CN110502523A (zh) * | 2019-08-01 | 2019-11-26 | 广东浪潮大数据研究有限公司 | 业务数据存储方法、装置、服务器及计算机可读存储介质 |
CN111355785A (zh) * | 2020-02-20 | 2020-06-30 | 浪潮软件集团有限公司 | 一种基于cmsp的ftp安全传输系统及方法 |
-
2020
- 2020-10-30 CN CN202011186111.8A patent/CN112269820A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567495A (zh) * | 2011-12-22 | 2012-07-11 | 国网信息通信有限公司 | 一种海量信息存储系统及实现方法 |
CN110175213A (zh) * | 2019-05-27 | 2019-08-27 | 浪潮软件集团有限公司 | 一种基于SCN方式的Oracle数据库同步系统及方法 |
CN110321359A (zh) * | 2019-07-05 | 2019-10-11 | 浪潮软件集团有限公司 | 一种基于cmsp的空间数据增量更新方法 |
CN110502523A (zh) * | 2019-08-01 | 2019-11-26 | 广东浪潮大数据研究有限公司 | 业务数据存储方法、装置、服务器及计算机可读存储介质 |
CN110502490A (zh) * | 2019-08-30 | 2019-11-26 | 浪潮软件集团有限公司 | 一种MongoDB数据库数据同步系统及实现方法 |
CN111355785A (zh) * | 2020-02-20 | 2020-06-30 | 浪潮软件集团有限公司 | 一种基于cmsp的ftp安全传输系统及方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032379A (zh) * | 2021-03-16 | 2021-06-25 | 广东电网有限责任公司广州供电局 | 面向配网运检多源数据采集的方法 |
CN113032379B (zh) * | 2021-03-16 | 2022-07-22 | 广东电网有限责任公司广州供电局 | 面向配网运检多源数据采集的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684307B (zh) | 一种数据存储方法、装置、设备及存储介质 | |
US9619512B2 (en) | Memory searching system and method, real-time searching system and method, and computer storage medium | |
CN111177161B (zh) | 数据处理方法、装置、计算设备和存储介质 | |
CN107870954B (zh) | 一种分布式数据库的扩展方法及装置 | |
CN103198108B (zh) | 一种索引数据更新方法、检索服务器及系统 | |
CN111177254B (zh) | 一种异构关系型数据库之间数据同步的方法和装置 | |
CN112121413A (zh) | 功能服务的响应方法、系统、装置、终端及介质 | |
CN112269820A (zh) | 一种基于cmsp实现数据批次同步的方法及平台 | |
CN114968845A (zh) | 一种缓存处理的方法、系统、设备和存储介质 | |
CN111046106A (zh) | 缓存数据同步方法、装置、设备及介质 | |
CN116089545B (zh) | 一种采集存储介质变更数据入数据仓库的方法 | |
CN112000850A (zh) | 进行数据处理的方法、装置、系统及设备 | |
CN109165259B (zh) | 基于网络附属存储的索引表更新方法、处理器及存储装置 | |
CN115061947B (zh) | 资源管理方法、装置、设备和存储介质 | |
CN111459913A (zh) | 分布式数据库的容量扩展方法、装置及电子设备 | |
CN115695458A (zh) | 弱网络环境下的bs端的数据存储方法 | |
CN103177026A (zh) | 数据管理方法和数据管理系统 | |
CN115421880A (zh) | 事务处理方法、装置、设备及介质 | |
CN110569231B (zh) | 数据迁移方法、装置、设备和介质 | |
CN115033646A (zh) | 一种基于Flink&Doris构建实时数仓系统的方法 | |
CN115794876A (zh) | 针对业务数据包的分片处理方法、装置、设备及存储介质 | |
CN111061719A (zh) | 数据收集方法、装置、设备和存储介质 | |
CN111240810A (zh) | 一种事务管理方法、装置、设备和存储介质 | |
CN115544321B (zh) | 一种图数据库存储的实现方法、装置及存储介质 | |
CN115599838B (zh) | 基于人工智能的数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210126 |
|
RJ01 | Rejection of invention patent application after publication |