CN112948410A - 数据处理方法、装置、设备及介质 - Google Patents

数据处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN112948410A
CN112948410A CN202110349359.XA CN202110349359A CN112948410A CN 112948410 A CN112948410 A CN 112948410A CN 202110349359 A CN202110349359 A CN 202110349359A CN 112948410 A CN112948410 A CN 112948410A
Authority
CN
China
Prior art keywords
data
transaction
data change
message
messages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110349359.XA
Other languages
English (en)
Inventor
曹海傧
杨志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202110349359.XA priority Critical patent/CN112948410A/zh
Publication of CN112948410A publication Critical patent/CN112948410A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置、设备及介质,涉及自动程序设计技术领域。该方法包括:读取消息中间件流式接收的至少一条数据变更消息;其中,每条所述数据变更消息携带对应的数据变更操作所属的事务信息;根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表;根据所述数据宽表,对下游存储系统进行数据同步。上述技术方案以数据库变更操作所属的事务为粒度处理在数据库中捕获到的变更数据,使下游存储系统中不会出现数据部分更新部分未更新的情况,时刻保证了下游存储系统的数据一致性。

Description

数据处理方法、装置、设备及介质
技术领域
本发明实施例涉及自动程序设计技术领域,尤其涉及一种数据处理方法、装置、设备及介质。
背景技术
在流式数据处理中,通常会使用CDC(Change Data Capture,变更数据捕获)从数据库中获取已提交的变更数据,并将这些变更数据发送到下游存储系统中,以供下游存储系统使用。
数据库中前后多条变更数据之间通常存在关联性,但由于现有技术中每条变更数据是单独发送到下游存储系统中的,故在这多条变更数据还未完全实现同步时下游存储系统中会出现数据部分更新部分未更新的情况,进而导致在某些时刻下游存储系统中会存在数据不一致的问题。
发明内容
本发明实施例提供一种数据处理方法、装置、设备及介质,以时刻保证下游存储系统的数据一致性。
第一方面,本发明实施例提供了一种数据处理方法,包括:
读取消息中间件流式接收的至少一条数据变更消息;其中,每条所述数据变更消息携带对应的数据变更操作所属的事务信息;
根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表;
根据所述数据宽表,对下游存储系统进行数据同步。
第二方面,本发明实施例还提供了一种数据处理装置,包括:
数据变更消息读取模块,用于读取消息中间件流式接收的至少一条数据变更消息;其中,每条所述数据变更消息携带对应的数据变更操作所属的事务信息;
数据宽表加工模块,用于根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表;
数据同步模块,用于根据所述数据宽表,对下游存储系统进行数据同步。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所述的数据处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的数据处理方法。
本发明实施例提供的技术方案,根据与目标事务对应的所有变更数据加工数据宽表,进而根据数据宽表对下游数据存储系统进行数据同步,也即以数据库变更操作所属的事务为粒度处理在数据库中捕获到的变更数据,使下游存储系统中不会出现数据部分更新部分未更新的情况,时刻保证了下游存储系统的数据一致性。
附图说明
图1是本发明实施例一中的一种数据处理方法的流程图;
图2是本发明实施例二中的一种数据处理方法的流程图;
图3是本发明实施例三中的一种数据处理装置的结构示意图;
图4是本发明实施例四中的一种计算机设备的硬件结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的一种数据处理方法的流程图,可适用于对流式数据进行处理的情况,该方法可以由本发明实施例提供的数据处理装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中。
如图1所示,本实施例提供的数据处理方法,具体包括:
S110、读取消息中间件流式接收的至少一条数据变更消息;其中,每条所述数据变更消息携带对应的数据变更操作所属的事务信息。
消息中间件,是基于队列与消息传递技术,在网络环境中为应用系统提供同步或异步、可靠的消息传输的支撑性软件系统。在本实施例中,消息中间件可以是kafka、RocketMQ等。
数据变更消息,指的是与数据库中数据变更操作对应的一条消息。其中,数据变更操作包括数据插入操作(INSERT)、数据删除操作(DELETE)和数据更新操作(UPDATE)。
在本实施例中,数据变更消息携带有其对应的数据变更操作所属的事务信息。其中,事务是指操作各种数据的一个数据库操作序列,数据库操作序列中包括的操作要么全部执行,要么全部不执行,这些数据库操作是一个不可分割的整体。
事务信息,指的是能够描述事务的信息。可选的,事务信息包括事务编号(ID)和事务消息总条数。其中,事务编号是能够唯一标识事务的信息;事务消息总条数,指的是根据事务包括的所有操作生成的消息的总条数,也即事务包括的操作的总数量。
值得指出的是,事务包括的启动(Begin)操作和结束(End)操作可以统计在事务消息总数量中(此时也会生成与启动操作和结束操作分别对应的数据变更消息),也可以不统计在事务消息总数量中(此时不会生成与启动操作和结束操作分别对应的数据变更消息),具体可以根据实际项目来设置,本实施例对此不作具体限定。下述以事务的启动操作和结束操作不统计在事务消息总数量中为例进行解释说明。
相应的,在本实施例中,所述数据变更消息携带事务编号和事务消息总条数。可选的,所述数据变更消息在消息头中携带事务编号和事务消息总条数。
作为本实施例一种可选的实施方式,在读取消息中间件流式接收的至少一条数据变更消息之前,还可以包括:在数据库中获取已提交的数据变更操作,并根据每个所述数据变更操作生成一条数据变更消息,流式发送至所述消息中间件中。
在数据库中获取已提交的数据变更操作,按照数据变更操作所属事务的信息将每个数据变更操作组装成一条数据变更消息,其中,数据变更消息中携带事务信息,例如可以在消息头中携带事务编号和事务消息总条数,然后将包含数据信息的数据变更消息发送至消息中间件中,以进行后续的流式处理。
S120、根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表。
目标事务,指的是任意一个数据库操作序列。
数据变更消息的相关数据,指的是与数据变更消息相对应的用于对下游存储系统进行数据同步的数据。
数据宽表,从字面意义上讲就是字段比较多的数据库表,通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。
针对目标事务进行下游存储系统数据同步时,首先确定与目标事务对应的所有数据变更消息之后,其次读取与这些数据变更消息对应的相关数据,再次根据这些相关数据加工相应的数据宽表。
作为本实施例一种可选的实施方式,在根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表之前,还可以包括:
根据各条所述数据变更消息携带的事务编号和事务消息总条数,确定与所述目标事务对应的所有数据变更消息,并获取所述所有数据变更消息的相关数据。
对在消息中间件中读取的各条数据变更消息携带的事务编号进行统计,如果与同一事务编号对应的数据变更消息的条数与相应的事务消息总条数一致,则可以确定能够获取到与该事务对应的所有变更数据,也即与该事务对应的所有数据变更消息均已到达,进而可以获取与该事务编号对应的所有数据变更消息的相关数据用于加工相应的数据宽表。
作为本实施例一种可选的实施方式,在所述读取消息中间件流式接收的至少一条数据变更消息之后,还可以包括:将所述至少一条数据变更消息的相关数据流式写入目标数据库。
目标数据库,指的是任意一种可以作为数据存储中间件的数据库,在本实施例中例如可以是HBase。
在消息中间件中读取一条或多条数据变更消息之后,可以首先写入目数据库库,以实现将与数据变更消息对应的全景数据暂存在目标数据库中。
可选的,将所述至少一条数据变更消息流式写入目标数据库,可以具体为:在将所述至少一条数据变更消息的相关数据流式写入目标数据库时,将所述目标数据库中数据表在同构的基础上增加事务编号字段。
事务编号字段,指的是用于标识变更数据所属的事务信息;事务编号字段值为事务编号。在目标数据库的同构表的基础上增加事务编号字段,可以实现事务之间的隔离。
进一步的,在将所述至少一条数据变更消息的相关数据流式写入目标数据库之后,还可以将所述至少一条数据变更消息的消息特征流式写入与所述目标数据库对应的事务缓冲池;其中,所述消息特征包括:事务编号、事务消息总条数、实体和消息主键。
在本实施例中,在消息中间件中读取一条或多条数据变更消息之后,可以首先写入目数据库库,然后将这些数据变更消息的消息特征写入事务缓冲池中。
其中,事务缓冲池是基于目标数据库实现的,当目标数据库为HBase时,事务缓冲池基于HBase实现,用于对存储在消息中间件中读取到的数据变更消息的消息特征进行缓存,以保证事务包括的数据变更消息在全部达到后再同步至下游数据存储系统。
可选的,事务缓冲池中的数据结构包括事务编号(TID)、事务消息总条数(Tcount)、实体和消息主键。事务编号(TID)、事务消息总条数(Tcount)是数据变更消息中携带的事务信息,实体是与数据变更消息对应的数据表名,消息主键是数据变更消息的主键值。
进而,可以根据事务缓冲池中记录的多条数据变更消息的消息特征确定与所述目标事务对应的所有数据变更消息,并获取所述所有数据变更消息的相关数据。
作为一种可选的实施方式,根据各条所述数据变更消息携带的事务编号和事务消息总条数,确定与所述目标事务对应的所有数据变更消息,并获取所述所有数据变更消息的相关数据,可以具体为:
根据所述事务缓冲池中记录的所述数据变更消息的消息特征,确定与所述目标事务对应的所有数据变更消息;根据所述数据变更消息的消息特征在所述目标数据库中读取所述所有数据变更消息的相关数据。
判断事务缓冲池中记录的与所述目标事务的事务编号对应的消息数量是否与所述目标事务的事务消息总条数一致,若一致,则可以将携带所述目标事务的事务编号的所有数据变更消息作为与所述目标事务对应的所有数据变更消息。进而,可以根据所述事务缓冲池中记录的与这些数据变更消息对应的实体和消息主键在目标数据库中读取与数据变更信息对应的相关数据。
由于目标数据库在同构表的基础上增加的事务编号字段,实现了事务之间的隔离,进而在目标数据库中读取与数据变更信息对应的相关数据时,可以按照事务编号进行过滤,读取事务编号小于目标事务的事务编号的最新版本数据,以免后续事务修改了与目标事务对应的数据,破坏目标事务的完整性。
进一步的,作为一种可选的实施方式,所述消息特征还可以包括:时间戳和用于关联数据主表的根消息主键。
其中,根消息主键指的是与数据变更消息对应的数据表关联的数据主表的消息主键。若与数据变更消息对应的数据表是数据主表,则其消息主键和根消息主键是一致的。
在确定与所述目标事务对应的所有数据变更消息之后,还可以根据所述事务缓冲池中记录的与这些数据变更消息对应的实体、消息主键、根消息主键和时间戳在目标数据库中读取与数据变更信息对应的相关数据。
在消息主键的基础上结合根消息主键在目标数据库中读取与数据变更信息对应的相关数据,能够一并查询到相应数据主表中的相关数据,以此提高了数据查询效率。
S130、根据所述数据宽表,对下游存储系统进行数据同步。
读所述数据宽表,写入所述下游存储系统进行数据同步。进而,在通过分布式搜索引擎(Elasticsearch)进行数据查询时,不会出现数据部分更新部分未更新的情况,时刻保证了下游存储系统的数据一致性。
在上述技术方案的基础上,作为一种可选的实施方式,在根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表之前,还可以包括:确定与在所述目标事务之前的所有其他事务对应的所有数据变更消息均已向所述下游存储系统同步。
在所述目标事务之前的所有其他事务,指的是在所述目标事务前发生的所有事务。若事务编号是按发生时间先后排序,发生时间越早事务编号越小,则在所述目标事务之前的所有其他事务指的是事务编号小于所述目标事务的事务编号的所有其他事务。
在本实施方式中,在根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表之前,除了确保与目标事务对应的所有数据变更消息已达到,还应该确保在所述目标事务之前的所有其他事务对应的所有数据变更消息均已向所述下游存储系统同步,可以是在所述目标事务之前的所有其他事务对应的所有数据变更消息均已开始向所述下游存储系统同步,也可以是在所述目标事务之前的所有其他事务对应的所有数据变更消息均已完成向所述下游存储系统同步。其中,开始向所述下游存储系统同步,可以指的是加工完数据宽表后,读取所述数据宽表开始将数据写入对下游存储系统的操作。
例如,可以设置一个变量,用于描述当前已向所述下游存储系统同步的事务的最大事务编号。进而,可以根据变量值判断在所述目标事务之前的所有其他事务对应的所有数据变更消息是否均已向所述下游存储系统同步。
作为一种可选的实施方式,在根据所述数据宽表,对下游存储系统进行数据同步之后,还可以包括:将所述事务缓冲池中与所述目标事务对应的所有数据变更消息的消息特征删除。
在本实施方式中,事务缓冲池不会再记录已完成向下游存储系统进行数据同步的事务编号。
进一步的,在将数据变更消息的消息特征写入事务缓冲池的情况下,确定与在所述目标事务之前的所有其他事务对应的所有数据变更消息均已被同步至所述下游存储系统,可以具体为:
若所述事务缓冲池记录的消息特征中不包括在所述目标事务之前的所有其他事务的事务编号,则确定与在所述目标事务之前的所有其他事务对应的所有数据变更消息均已向所述下游存储系统同步。
当判断在所述目标事务之前的所有其他事务对应的所有数据变更消息是否均已向所述下游存储系统同步时,可以判断所述事务缓冲池记录的消息特征中是否还包括在所述目标事务之前的所有其他事务的事务编号。若包括,则确定与在所述目标事务之前的所有其他事务对应的所有数据变更消息未均已向所述下游存储系统同步;若不包括,则确定与在所述目标事务之前的所有其他事务对应的所有数据变更消息均已向所述下游存储系统同步。
本发明实施例提供的技术方案,根据与目标事务对应的所有变更数据加工数据宽表,进而根据数据宽表对下游数据存储系统进行数据同步,也即以数据库变更操作所属的事务为粒度处理在数据库中捕获到的变更数据,使下游存储系统中不会出现数据部分更新部分未更新的情况,时刻保证了下游存储系统的数据一致性。
实施例二
图2是本发明实施例二提供的一种数据处理方法的流程图。本实施例在前述实施例的基础上提供了一种具体的实施方式。其中,消息中间件可以具体为Kafka,目标数据库可以具体为HBase。
如图2所示,本实施例提供的数据处理方法,具体包括:
S210、使用CDC从数据库中获取已提交的数据变更操作。
获取数据库的变更数据,需要能够捕获数据库的数据变化,最容易的做法是通过触发器来实现,但这样容易影响数据库的性能,以及增加数据库的开销。更好和更通用的做法的是导出数据库的日志,如MySQL的Binlog,又如Oracle的GoldenGate。
S220、将每个数据变更操作组成一条数据变更消息,所述数据变更消息中携带事务编号和事务消息总条数。
其中,可以在每个数据变更消息前附加一个消息头,消息头中包括事务编号和事务消息总条数。
S230、将所述数据变更消息流式发送到kafka中。
其中,Kafka消息中包含的事务信息包括事务编号和事务消息总条数。
S240、读取kafka中至少一条数据变更消息,将所述至少一条数据消息写入HBase。
在将所述至少一条数据消息写入HBase时,在HBase同构数据表的基础上增加事务编号字段(事务编号字段值为数据变更消息携带的事务编号),以进行事务隔离。
S250、在完成HBase写入后,将所述至少一条数据变更消息的消息特征写入事务缓冲池。
其中,事务缓冲池是基于HBase实现的,设置事务缓冲池用于保证目标事务包含的数据变更消息全部到达以后再写入Elasticsearch。
所述消息特征包括:事务编号、事务消息总条数、实体和消息主键。相应的,事务缓冲池数据结构也包括事务编号、事务消息总条数、实体和消息主键。
进一步的,所述消息特征还可以包括:时间戳和用于关联数据主表的根消息主键。相应的,事务缓冲池数据结构还包括时间戳和根消息主键。
S260、判断事务缓冲池中与目标事务对应的所有数据变更消息是否全部到达,若否,则执行S260,若是,则执行S270。
在判断事务缓冲池中与目标事务对应的所有数据变更消息是否全部到达时,具体可以判断事务缓冲池中与目标事务的事务编号对应的消息数量是否等于目标事务的事务消息总条数。
S270、判断与在目标事务之前的其他所有事务对应的所有数据变更消息是否全部到达,若否,则执行S270,若是,则执行S280。
S280、根据事务缓冲池中记录的与目标事务的事务编号对应的实体和消息主键读取HBase数据,加工对应的数据宽表。
其中,在根据消息主键读取HBase数据时,按照事务编号进行过滤,读取小于等于事务编号的最新版本数据,以避免后续事务修改了正在进行组装的数据(也即针对目标事务进行组装的数据),破坏目标事务的数据完整性,达到了基于事务编号实现类似事务隔离的效果。
S290、读取所述数据宽表中的数据,写入下游存储系统。
S2100、在完成下游存储系统数据写入之后,将事务缓冲池中记录的与所述目标事务对应的消息特征删除。
相应的,在判断与在目标事务之前的其他所有事务对应的所有数据变更消息是否全部到达时,可以根据事务缓冲池中记录的数据变更消息的事务编号来判断。
本实施例未尽详细解释之处请参见前述实施例,在此不再赘述。
上述技术方案中,变更数据是以事务为粒度进行获取的,由变更数据生成的每个数据变更消息中包含事务编号和事务消息总条数,进而利用事务缓存池在流式数据处理时按照事务的粒度向下游存储系统进行数据同步处理,以此保证了下游存储系统的数据一致性。
实施例三
图3是本发明实施例三提供的一种数据处理装置的结构示意图,可适用于对流式数据进行处理的情况,该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中。
如图3所示,该数据处理装置具体包括:数据变更消息读取模块310、数据宽表加工模块320和数据同步模块330。其中,
数据变更消息读取模块310,用于读取消息中间件流式接收的至少一条数据变更消息;其中,每条所述数据变更消息携带对应的数据变更操作所属的事务信息;
数据宽表加工模块320,用于根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表;
数据同步模块330,用于根据所述数据宽表,对下游存储系统进行数据同步。
本发明实施例提供的技术方案,根据与目标事务对应的所有变更数据加工数据宽表,进而根据数据宽表对下游数据存储系统进行数据同步,也即以数据库变更操作所属的事务为粒度处理在数据库中捕获到的变更数据,使下游存储系统中不会出现数据部分更新部分未更新的情况,时刻保证了下游存储系统的数据一致性。
可选的,所述数据变更消息携带事务编号和事务消息总条数。
可选的,上述装置还包括:变更数据获取模块,用于在根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表之前,根据各条所述数据变更消息携带的事务编号和事务消息总条数,确定与所述目标事务对应的所有数据变更消息,并获取所述所有数据变更消息的相关数据。
可选的,上述装置还包括:已同步变更确认模块,用于在根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表之前,确定与在所述目标事务之前的所有其他事务对应的所有数据变更消息均已向所述下游存储系统同步。
可选的,上述装置还包括:数据变更消息生成发送模块,用于在所述读取消息中间件流式接收的至少一条数据变更消息之前,在数据库中获取已提交的数据变更操作,并根据每个所述数据变更操作生成一条数据变更消息,流式发送至所述消息中间件中。
可选的,上述装置还包括:变更数据暂存模块,用于在所述读取消息中间件流式接收的至少一条数据变更消息之后,将所述至少一条数据变更消息的相关数据流式写入目标数据库。
可选的,变更数据暂存模块,具体用于在将所述至少一条数据变更消息的相关数据流式写入目标数据库时,将所述目标数据库中数据表在同构的基础上增加事务编号字段。
可选的,上述装置还包括:事务暂存统计模块,用于在将所述至少一条数据变更消息的相关数据流式写入目标数据库之后,将所述至少一条数据变更消息的消息特征流式写入与所述目标数据库对应的事务缓冲池;
其中,所述消息特征包括:事务编号、事务消息总条数、实体和消息主键。
可选的,变更数据获取模块,具体用于根据所述事务缓冲池中记录的所述数据变更消息的消息特征,确定与所述目标事务对应的所有数据变更消息;根据所述数据变更消息的消息特征在所述目标数据库中读取所述所有数据变更消息的相关数据。
可选的,所述消息特征还包括:时间戳和用于关联数据主表的根消息主键。
可选的,上述装置还包括:事务暂存更新模块,用于在根据所述数据宽表,对下游存储系统进行数据同步之后,将所述事务缓冲池中与所述目标事务对应的所有数据变更消息的消息特征删除。
可选的,已同步变更确认模块,具体用于若所述事务缓冲池记录的消息特征中不包括在所述目标事务之前的所有其他事务的事务编号,则确定与在所述目标事务之前的所有其他事务对应的所有数据变更消息均已向所述下游存储系统同步。
上述数据处理装置可执行本发明任意实施例所提供的数据处理方法,具备执行数据处理方法相应的功能模块和有益效果。
由于上述所介绍的数据处理装置为可以执行本发明实施例中的数据处理方法的装置,故而基于本发明实施例中所介绍的数据处理方法,本领域所属技术人员能够了解本实施例的数据处理装置的具体实施方式以及其各种变化形式,所以在此对于该数据处理装置如何实现本发明实施例中的数据处理方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中数据处理方法所采用的装置,都属于本申请所欲保护的范围。
实施例四
图4为本发明实施例四提供的一种计算机设备的硬件结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图4中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种数据处理方法。
也即,所述处理单元执行所述程序时实现:读取消息中间件流式接收的至少一条数据变更消息;其中,每条所述数据变更消息携带对应的数据变更操作所属的事务信息;根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表;根据所述数据宽表,对下游存储系统进行数据同步。
实施例五
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的一种数据处理方法:也即,该程序被处理器执行时实现:读取消息中间件流式接收的至少一条数据变更消息;其中,每条所述数据变更消息携带对应的数据变更操作所属的事务信息;根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表;根据所述数据宽表,对下游存储系统进行数据同步。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言(诸如Java、Smalltalk、C++),还包括常规的过程式程序设计语言(诸如“C”语言或类似的程序设计语言)。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网LAN或广域网WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
读取消息中间件流式接收的至少一条数据变更消息;其中,每条所述数据变更消息携带对应的数据变更操作所属的事务信息;
根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表;
根据所述数据宽表,对下游存储系统进行数据同步。
2.根据权利要求1所述的方法,其特征在于,所述数据变更消息携带事务编号和事务消息总条数。
3.根据权利要求2所述的方法,其特征在于,在根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表之前,包括:
根据各条所述数据变更消息携带的事务编号和事务消息总条数,确定与所述目标事务对应的所有数据变更消息,并获取所述所有数据变更消息的相关数据。
4.根据权利要求3所述的方法,其特征在于,在根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表之前,还包括:
确定与在所述目标事务之前的所有其他事务对应的所有数据变更消息均已向所述下游存储系统同步。
5.根据权利要求3或4所述的方法,其特征在于,在所述读取消息中间件流式接收的至少一条数据变更消息之前,还包括:
在数据库中获取已提交的数据变更操作,并根据每个所述数据变更操作生成一条数据变更消息,流式发送至所述消息中间件中。
6.根据权利要求5所述的方法,其特征在于,在所述读取消息中间件流式接收的至少一条数据变更消息之后,还包括:
将所述至少一条数据变更消息的相关数据流式写入目标数据库。
7.根据权利要求6所述的方法,其特征在于,将所述至少一条数据变更消息流式写入目标数据库,包括:
在将所述至少一条数据变更消息的相关数据流式写入目标数据库时,将所述目标数据库中数据表在同构的基础上增加事务编号字段。
8.根据权利要求7所述的方法,其特征在于,在将所述至少一条数据变更消息的相关数据流式写入目标数据库之后,还包括:
将所述至少一条数据变更消息的消息特征流式写入与所述目标数据库对应的事务缓冲池;
其中,所述消息特征包括:事务编号、事务消息总条数、实体和消息主键。
9.根据权利要求8所述的方法,其特征在于,根据各条所述数据变更消息携带的事务编号和事务消息总条数,确定与所述目标事务对应的所有数据变更消息,并获取所述所有数据变更消息的相关数据,包括:
根据所述事务缓冲池中记录的所述数据变更消息的消息特征,确定与所述目标事务对应的所有数据变更消息;
根据所述数据变更消息的消息特征在所述目标数据库中读取所述所有数据变更消息的相关数据。
10.根据权利要求9所述的方法,其特征在于,所述消息特征还包括:时间戳和用于关联数据主表的根消息主键。
11.根据权利要求8所述的方法,其特征在于,在根据所述数据宽表,对下游存储系统进行数据同步之后,还包括:
将所述事务缓冲池中与所述目标事务对应的所有数据变更消息的消息特征删除。
12.根据权利要求11所述的方法,其特征在于,确定与在所述目标事务之前的所有其他事务对应的所有数据变更消息均已被同步至所述下游存储系统,包括:
若所述事务缓冲池记录的消息特征中不包括在所述目标事务之前的所有其他事务的事务编号,则确定与在所述目标事务之前的所有其他事务对应的所有数据变更消息均已向所述下游存储系统同步。
13.一种数据处理装置,其特征在于,包括:
数据变更消息读取模块,用于读取消息中间件流式接收的至少一条数据变更消息;其中,每条所述数据变更消息携带对应的数据变更操作所属的事务信息;
数据宽表加工模块,用于根据与目标事务对应的所有数据变更消息的相关数据,加工匹配的数据宽表;
数据同步模块,用于根据所述数据宽表,对下游存储系统进行数据同步。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-12中任一所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12中任一所述的方法。
CN202110349359.XA 2021-03-31 2021-03-31 数据处理方法、装置、设备及介质 Pending CN112948410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110349359.XA CN112948410A (zh) 2021-03-31 2021-03-31 数据处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110349359.XA CN112948410A (zh) 2021-03-31 2021-03-31 数据处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN112948410A true CN112948410A (zh) 2021-06-11

Family

ID=76231587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110349359.XA Pending CN112948410A (zh) 2021-03-31 2021-03-31 数据处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112948410A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117112632A (zh) * 2023-10-23 2023-11-24 北京纷扬科技有限责任公司 一种防止数据冲击的隔离方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117112632A (zh) * 2023-10-23 2023-11-24 北京纷扬科技有限责任公司 一种防止数据冲击的隔离方法、装置及存储介质
CN117112632B (zh) * 2023-10-23 2024-01-12 北京纷扬科技有限责任公司 一种防止数据冲击的隔离方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN109254733B (zh) 用于存储数据的方法、装置和系统
CN110008045B (zh) 微服务的聚合方法、装置、设备及存储介质
US20110113117A1 (en) Asynchronous Collection and Correlation of Trace and Communications Event Data
CN109471851B (zh) 数据处理方法、装置、服务器和存储介质
CN110505495B (zh) 多媒体资源抽帧方法、装置、服务器及存储介质
CN109391646A (zh) 消息中间件消息获取方法、装置和系统
WO2023273544A1 (zh) 日志文件的存储方法、装置、设备和存储介质
CN112948492A (zh) 一种数据处理系统、方法、装置、电子设备及存储介质
WO2024041022A1 (zh) 数据库表变更方法、装置、设备和存储介质
CN112613964A (zh) 一种对账方法、装置、设备及存储介质
CN111949850A (zh) 多源数据的采集方法、装置、设备及存储介质
CN113076304A (zh) 一种分布式版本管理方法、装置和系统
CN112948409A (zh) 一种数据处理方法、装置、电子设备及存储介质
US8600990B2 (en) Interacting methods of data extraction
CN110727700A (zh) 多源流式数据整合成事务型流数据的方法及系统
CN112948410A (zh) 数据处理方法、装置、设备及介质
US20140280759A1 (en) Data transmission for transaction processing in a networked environment
CN111930385A (zh) 数据采集方法、装置、设备及存储介质
CN113761052A (zh) 数据库同步方法和装置
US9948587B2 (en) Data deduplication at the network interfaces
CN111753141A (zh) 一种数据管理方法及相关设备
CN109815118A (zh) 数据库管理方法及装置、电子设备和计算机可读存储介质
CN114297211A (zh) 一种数据在线分析系统、方法、设备及存储介质
CN113760988A (zh) 一种无界流数据关联处理方法、装置、设备及存储介质
CN110896391B (zh) 一种报文处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination