CN115391361A - 一种基于分布式数据库的实时数据处理方法及其装置 - Google Patents
一种基于分布式数据库的实时数据处理方法及其装置 Download PDFInfo
- Publication number
- CN115391361A CN115391361A CN202211019587.1A CN202211019587A CN115391361A CN 115391361 A CN115391361 A CN 115391361A CN 202211019587 A CN202211019587 A CN 202211019587A CN 115391361 A CN115391361 A CN 115391361A
- Authority
- CN
- China
- Prior art keywords
- data
- change information
- database
- updating
- table structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2379—Updates performed during online database operations; commit processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种基于分布式数据库的实时数据处理方法及其装置,所述方法包括:获取各业务系统对应的数据源进行数据采集生成数据变化信息,并通过所述数据变化信息、所述数据源和分布式数据库生成数据湖,所述数据变化信息包括数据变更信息和表结构变更信息;对所述数据湖内的消息数据进行数据分区生成数据表集合,所述数据表集合内由若干个不相同主题的数据表组成;依据所述数据变更信息确定所述数据表集合内所述消费数据的更新数据,并通过所述更新数据更新目标数据表;通过所述表结构变更信息对所述目标数据表进行表结构变更处理。能够实现数据归集,确保数据入湖的准确性,同时支持更新数据,以及表结构的实时变更。
Description
技术领域
本申请涉及数据处理领域,特别是一种基于分布式数据库的实时数据处理方法及其装置。
背景技术
大多数保险公司的数据仓库都是烟囱式的开发模式,重复建设,架构不统一,运维难度大、成本高,多数都采用Oracle的数据平台,整体资源成本价格高,随着企业不断地发展,历史数据不断堆积,增量数据不断增大,当平台算力不足时,所带来的整体扩容成本高。而且对数据分析的时效要求越来越高,实时数据处理的诉求也很多。
现有技术对于实时入湖对服务器的配置要求较高,且实现实时入湖的逻辑程序较为复杂,运维难度相对较高。
发明内容
鉴于所述问题,提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的一种基于分布式数据库的实时数据处理方法及其装置,包括:
一种基于分布式数据库的实时数据处理方法,所述方法包括:
获取各业务系统对应的数据源进行数据采集生成数据变化信息,并通过所述数据变化信息、所述数据源和分布式数据库生成数据湖,其中,所述数据变化信息包括数据变更信息和表结构变更信息;
对所述数据湖内的消息数据进行数据分区生成数据表集合,其中,所述数据表集合内由若干个不相同主题的数据表组成;
依据所述数据变更信息确定所述数据表集合内所述消费数据的更新数据,并通过所述更新数据更新目标数据表;
通过所述表结构变更信息对所述目标数据表进行表结构变更处理。
进一步地,所述获取各业务系统对应的数据源进行数据采集生成数据变化信息,并通过所述数据变化信息、所述数据源和分布式数据库生成数据湖,其中,所述数据变化信息包括数据变更信息和表结构变更信息的步骤,包括:
对所述数据源进行分类确定所述数据源的数据库类型,其中,所述数据源类型包括第一数据库和第二数据库;
对所述第一数据库对应的所述数据源和所述第二数据库对应的所述数据源分别进行数据采集生成数据变化信息;
将所述数据变更信息、所述表结构变更信息和所述数据源接入至分布式数据库生成数据湖。
进一步地,所述对所述第一数据库对应的所述数据源和所述第二数据库对应的所述数据源分别进行数据采集生成数据变化信息的步骤,包括:
当所述数据源为所述第一数据库的数据时,通过第一采集方式在所述数据源获取第一数据变更信息和第一表结构变更信息;
和/或;
当所述数据源为所述第二数据库的数据时,通过第二采集方式在所述数据源获取第二数据变更信息和第二表结构变更信息;
依据所述第一数据变更信息和所述第二数据变更信息生成所述数据变更信息;
依据所述第一表结构变更信息和所述第二数据变更信息生成所述表结构变更信息;
依据所述数据变更信息和所述表结构变更信息生成所述数据变化信息。
进一步地,所述对所述数据湖内的消息数据进行数据分区生成数据表集合,其中,所述数据表集合内由若干个不相同主题的数据表组成的步骤,包括:
通过Kafka集群构建若干个消息队列,依据若干个所述消息队列对所述消息数据进行筛选生成属于目标消息队列的所述消息数据;
依据所述目标消息队列以及所述目标消息队列对应的所述消息数据生成当前主题数据表,再通过其他消息队列以及所述其他消息队列的所述消息数据生成若干个其他主题数据表;
依据所述当前主题数据表和若干个所述其他主题表生成所述数据表集合。
进一步地,所述依据所述数据变更信息确定所述数据表集合内所述消费数据的更新数据,并通过所述更新数据更新目标数据表的步骤,包括:
获取所述数据表集合内各主题的所述消费数据;
通过所述数据变更信息确定所述消费数据中的所述更新数据以及所述更新数据对应的数据变化类型,其中,所述数据变化类型包括新增数据和删除数据;
依据所述更新数据和所述数据变化类型更新所述目标数据表。
进一步地,所述依据所述更新数据和所述数据变化类型更新所述目标数据表的步骤,包括:
将所述数据变化类型为所述新增数据以及所述数据变化类型为所述删除数据的所述更新数据进行合并生成临时表;
通过所述临时表完成对数据表的新增操作以及删除操作生成所述目标数据表。
进一步地,所述通过所述表结构变更信息对所述目标数据表进行表结构变更处理的步骤,包括:
依据所述所述表结构变更信息确定数据库模式定义语言脚本;
获取所述数据库模式定义语言脚本内的语句,并通过所述语句生成适用于所述分布式数据库的逻辑脚本;
依据所述逻辑脚本对所述目标数据表进行表结构变更处理。
本发明还公开了一种基于分布式数据库的实时数据处理装置,所述装置包括:
第一生成模块,用于获取各业务系统对应的数据源进行数据采集生成数据变化信息,并通过所述数据变化信息和所述数据源生成数据湖,其中,所述数据变化信息包括数据变更信息和表结构变更信息;
第二生成模块,用于对所述数据湖内的消息数据进行数据分区生成数据表集合,其中,所述数据表集合内由若干个不相同主题的数据表组成;
更新模块,用于依据所述数据变更信息确定所述数据表集合内所述消费数据的更新数据,并通过所述更新数据更新目标数据表;
变更模块,用于通过所述表结构变更信息对所述目标数据表进行表结构变更处理。
本发明还公开了一种设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的一种基于分布式数据库的实时数据处理方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的一种基于分布式数据库的实时数据处理方法的步骤。
本申请具有以下优点:
在本申请的实施例中,通过获取各业务系统对应的数据源进行数据采集生成数据变化信息,并通过所述数据变化信息、所述数据源和分布式数据库生成数据湖,其中,所述数据变化信息包括数据变更信息和表结构变更信息;对所述数据湖内的消息数据进行数据分区生成数据表集合,其中,所述数据表集合内由若干个不相同主题的数据表组成;依据所述数据变更信息确定所述数据表集合内所述消费数据的更新数据,并通过所述更新数据更新目标数据表;通过所述表结构变更信息对所述目标数据表进行表结构变更处理。
打破数据壁垒,能够采集归纳了所有系统的数据,和传统数据比较具有更全面的数据,避免了当需要跨系统统计分析时取数流程长,取数难的问题,大大提升公司数据资产价值的挖掘使用能力。降低扩容成本,当数据库性能需要提升时,如使用Oracle一体机100T的扩容成本约为200多万,同等资源扩容成本约为60多万,成本节约70%左右。支持实时数据处理,传统的数据仓库数据统计分析的时效是T+1天,数据响应滞后,通过数据实时采集和实时入湖,可以实时的获取到最新的数据,基于实时变化的数据流,可以对公司的业务数据进行实时的监控,对异常的业务进行预警,对业务决策带来及时的数据支持。支持实时的表数据结构变更,传统的数据仓库在源端表结构变更时不能自动在目标端变更,只能等程序报错或者源端的业务系统告知有变更后,才可以通过人工处理变更内容,这样会导致数据跑批报错,会有数据需要重新全量同步的额外工作量,实时的表数据结构变更可以保证数据接入的连贯性,提升整体实时入湖的高扩展可用性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对本申请的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种基于分布式数据库的实时数据处理方法的步骤流程图;
图2是本申请一实施例提供的一种基于分布式数据库的实时数据处理装置的结构框图;
图3是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的所述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参照图1,示出了本申请一实施例提供的一种基于分布式数据库的实时数据处理方法的步骤流程图;
所述方法包括:
S110、获取各业务系统对应的数据源进行数据采集生成数据变化信息,并通过所述数据变化信息、所述数据源和分布式数据库生成数据湖,其中,所述数据变化信息包括数据变更信息和表结构变更信息;
S120、对所述数据湖内的消息数据进行数据分区生成数据表集合,其中,所述数据表集合内由若干个不相同主题的数据表组成;
S130、依据所述数据变更信息确定所述数据表集合内所述消费数据的更新数据,并通过所述更新数据更新目标数据表;
S140、通过所述表结构变更信息对所述目标数据表进行表结构变更处理。
在本申请的实施例中,通过获取各业务系统对应的数据源进行数据采集生成数据变化信息,并通过所述数据变化信息、所述数据源和分布式数据库生成数据湖,其中,所述数据变化信息包括数据变更信息和表结构变更信息;对所述数据湖内的消息数据进行数据分区生成数据表集合,其中,所述数据表集合内由若干个不相同主题的数据表组成;依据所述数据变更信息确定所述数据表集合内所述消费数据的更新数据,并通过所述更新数据更新目标数据表;通过所述表结构变更信息对所述目标数据表进行表结构变更处理。
打破数据壁垒,能够采集归纳了所有系统的数据,和传统数据比较具有更全面的数据,避免了当需要跨系统统计分析时取数流程长,取数难的问题,大大提升公司数据资产价值的挖掘使用能力。降低扩容成本,当数据库性能需要提升时,如使用Oracle一体机100T的扩容成本约为200多万,同等资源扩容成本约为60多万,成本节约70%左右。支持实时数据处理,传统的数据仓库数据统计分析的时效是T+1天,数据响应滞后,通过数据实时采集和实时入湖,可以实时的获取到最新的数据,基于实时变化的数据流,可以对公司的业务数据进行实时的监控,对异常的业务进行预警,对业务决策带来及时的数据支持。支持实时的表数据结构变更,传统的数据仓库在源端表结构变更时不能自动在目标端变更,只能等程序报错或者源端的业务系统告知有变更后,才可以通过人工处理变更内容,这样会导致数据跑批报错,会有数据需要重新全量同步的额外工作量,实时的表数据结构变更可以保证数据接入的连贯性,提升整体实时入湖的高扩展可用性。
下面,将对本示例性实施例中一种基于分布式数据库的实时数据处理方法作进一步地说明。
如所述步骤S110所述,获取各业务系统对应的数据源进行数据采集生成数据变化信息,并通过所述数据变化信息、所述数据源和分布式数据库生成数据湖,其中,所述数据变化信息包括数据变更信息和表结构变更信息。
在本发明一实施例中,可以结合下列描述进一步说明步骤S110所述“获取各业务系统对应的数据源进行数据采集生成数据变化信息,并通过所述数据变化信息、所述数据源和分布式数据库生成数据湖,其中,所述数据变化信息包括数据变更信息和表结构变更信息”的具体过程。
如下列步骤所述,
S210、对所述数据源进行分类确定所述数据源的数据库类型,其中,所述数据源类型包括第一数据库和第二数据库;
S220、对所述第一数据库对应的所述数据源和所述第二数据库对应的所述数据源分别进行数据采集生成数据变化信息;
S230、将所述数据变更信息、所述表结构变更信息和所述数据源接入至分布式数据库生成数据湖。
需要说明的是,数据归集,不同数据源的数据结构、采集形式是不同的,需要对异构的数据进行统一规划,建立统一的数据结构和数据存储区,便于上端模型应用进行直接使用,不必针对不同的系统数据编写不同的处理逻辑。
需要说明的是,实时获取数据变化信息,将数据变更信息、表结构变更信息和数据源实时接入到分布式数据库Greenplum,形成数据湖。
作为一种示例,对所述数据源进行分类确定所述数据源的数据库类型,其中,所述数据源类型包括第一数据库和第二数据库;对所述第一数据库对应的所述数据源和所述第二数据库对应的所述数据源分别进行数据采集生成数据变化信息;将所述数据变更信息、所述表结构变更信息和所述数据源接入至分布式数据库Greenplum生成数据湖;其中Greenplum是分布式数据库的一种,架构采用了MPP(大规模并行处理),利用强大并行处理能力,利用资源队列管理可实现按用户组的进行资源分配,通过集群的搭建,可以对于从TB量级到PB量级的数据进行分组、存储和分析。
在一具体实现中,实现数据归集,承接跨库、跨域各业务系统数据,各业务系统包括基于第一数据库的老承保系统、老理赔系统、车险理赔系统等,也包括基于第二数据库的新非车理赔系统、新农险承保系统、新农险理赔系统等。
如所述步骤S220所述,对所述第一数据库对应的所述数据源和所述第二数据库对应的所述数据源分别进行数据采集生成数据变化信息。
在本发明一实施例中,可以结合下列描述进一步说明步骤S220所述“对所述第一数据库对应的所述数据源和所述第二数据库对应的所述数据源分别进行数据采集生成数据变化信息”的具体过程。
如下列步骤所述,
S310、当所述数据源为所述第一数据库的数据时,通过第一采集方式在所述数据源获取第一数据变更信息和第一表结构变更信息;和/或;
S320、当所述数据源为所述第二数据库的数据时,通过第二采集方式在所述数据源获取第二数据变更信息和第二表结构变更信息;
S330、依据所述第一数据变更信息和所述第二数据变更信息生成所述数据变更信息;
S340、依据所述第一表结构变更信息和所述第二数据变更信息生成所述表结构变更信息;
S350、依据所述数据变更信息和所述表结构变更信息生成所述数据变化信息。
需要说明的是,第一数据库即Oracle数据库的数据通过Oracle Golden Gate即第一采集方式获取第一数据变更信息和第一表结构变更信息;第二数据库即MySQL数据库的数据基于Canal即第二采集方式获取第二数据变更信息和第二表结构变更信息。
其中,Oracle Golden Gate:是一种基于日志的结构化数据复制软件,它通过解析源数据库在线日志或归档日志获得数据的增量变化,再将这些变化应用到目标数据库,从而实现源数据库与目标数据库同步。
Canal:是用java开发的基于数据库增量日志解析,提供增量数据订阅&消费的中间件。目前,canal主要支持了MySQL的binlog解析,解析完成后才利用canal client用来处理获得的相关数据。
在一具体实现中,实时获取数据变化信息,在源数据系统Oracle、Mysql服务器端装Oracle Golden Gate、Canal数据采集工具,采集的数据变化信息推送至Kafka集群,供Flink消费入湖;Flink是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。
如所述步骤S120所述,对所述数据湖内的消息数据进行数据分区生成数据表集合,其中,所述数据表集合内由若干个不相同主题的数据表组成。
在本发明一实施例中,可以结合下列描述进一步说明步骤S120所述“对所述数据湖内的消息数据进行数据分区生成数据表集合,其中,所述数据表集合内由若干个不相同主题的数据表组成”的具体过程。
如下列步骤所述,
S410、通过Kafka集群构建若干个消息队列,依据若干个所述消息队列对所述消息数据进行筛选生成属于目标消息队列的所述消息数据;
S420、依据所述目标消息队列以及所述目标消息队列对应的所述消息数据生成当前主题数据表,再通过其他消息队列以及所述其他消息队列的所述消息数据生成若干个其他主题数据表;
S430、依据所述当前主题数据表和若干个所述其他主题表生成所述数据表集合。
需要说明的是,通过对消息数据进行数据分区,在Kafka集群中对消息数据进行数据分区,可以更快、更高效的进行数据处理。
需要说明的是,消息数据分区是根据采集数据表的表名作为分区键,将相同分区键的消息方式在同一分区,数据消息的顺序是根据产生时间进行排序,Flink消费时按照分区进行消息的顺序消费,这样数据变化的小时不会因为分布在不同的分区而导致数据乱序。
作为一种示例,为提高数据处理的效率,确保数据消费的准确,在Kafka集群中建立多个消息Topic即若干个消息队列;将同一张表的消息数据放置在同一个Topic中,即依据若干个所述消息队列对所述消息数据进行筛选生成属于目标消息队列的所述消息数据,依据所述目标消息队列以及所述目标消息队列对应的所述消息数据生成当前主题数据表;确保同一张表的数据消息前后消息不会乱序,从而确保数据入湖的准确性。
如所述步骤S130所述,依据所述数据变更信息确定所述数据表集合内所述消费数据的更新数据,并通过所述更新数据更新目标数据表。
在本发明一实施例中,可以结合下列描述进一步说明步骤S130所述“依据所述数据变更信息确定所述数据表集合内所述消费数据的更新数据,并通过所述更新数据更新目标数据表”的具体过程。
如下列步骤所述,
S510、获取所述数据表集合内各主题的所述消费数据;
S520、通过所述数据变更信息确定所述消费数据中的所述更新数据以及所述更新数据对应的数据变化类型,其中,所述数据变化类型包括新增数据和删除数据;
S530、依据所述更新数据和所述数据变化类型更新所述目标数据表。
需要说明的是,分布式数据库Greenplum虽然数据处理效率高,但存在数据更新、删除较慢,数据插入快的特性。因此对于频繁数据更新、删除的千万级别数据量大表在实时入湖时,数据写入效率存在极大瓶颈,因此在处理这种数据时,将消息数据进行合并,写入临时表中,将更新、删除的操作转换成插入逻辑进行处理,大大的提升实时入湖的性能。
作为一种示例,通过Flink消费Kafka集群中不同Topic即各主题数据表里面的消息数据,获取数据变化的类型,对新增和删除的数据分别在数据湖目标表即目标数据表进行插入和删除的操作。
如所述步骤S530所述,依据所述更新数据和所述数据变化类型更新所述目标数据表。
在本发明一实施例中,可以结合下列描述进一步说明步骤S530所述“依据所述更新数据和所述数据变化类型更新所述目标数据表”的具体过程。
如下列步骤所述,
S610、将所述数据变化类型为所述新增数据以及所述数据变化类型为所述删除数据的所述更新数据进行合并生成临时表;
S620、通过所述临时表完成对数据表的新增操作以及删除操作生成所述目标数据表。
需要说明的是,根据数据变化的类型,对新增和删除的数据分别在目标数据表进行插入和删除的操作;对于更新的消息数据,根据数据变化前和变化后的信息,同时在数据湖的目标表中进行相应字段信息的更新,从而保障数据湖中的数据与源系统一致。
如所述步骤S140所述,通过所述表结构变更信息对所述目标数据表进行表结构变更处理。
在本发明一实施例中,可以结合下列描述进一步说明步骤S140所述“通过所述表结构变更信息对所述目标数据表进行表结构变更处理”的具体过程。
如下列步骤所述,
S710、依据所述所述表结构变更信息确定数据库模式定义语言脚本;
S720、获取所述数据库模式定义语言脚本内的语句,并通过所述语句生成适用于所述分布式数据库的逻辑脚本;
S730、依据所述逻辑脚本对所述目标数据表进行表结构变更处理。
需要说明的是,实时的表结构数据库模式定义语言处理,免去人工介入的工作,通过Flink处理第一数据库、第二数据库不同的数据库模式定义语言脚本,转化后自动在数据中台数据湖执行,变更后,新增字段的增量数据信息可以及时的进入到数据湖中,这种处理方式,可以避免需要该新增字段信息时,人工调整数据结构,并需对调整结构的表进行重新的数据初始化。
作为一种示例,在通过Oracle Golden Gate和Canal进行数据变更信息采集的时候,同时抓取表结构变更信息,当核心表结构变更时,可以同步进行结构的变化,不会导致因数据结构不一致数据入湖失败。
在一具体实现中,实时表结构变更,在通过Oracle Golden Gate即第一采集方式和Canal即第二采集方式分别采集第一数据库的源端数据和第二数据库的源端数据时,同步采集表结构变化的执行脚本即数据库模式定义语言脚本推送至Kafka集群,在Flink消费Kafka集群中的消息数据时,通过逻辑转换,把第一数据库对应的语句和第二数据库的语句转换成适用于所述分布式数据库Greenplum的逻辑脚本,在目标端执行程序,实现表结构的实时变更。
在本发明中,Flink对消息数据的处理机制是分布式数据库Greenplum上的核心点,通过消息数据分区的处理可以保证数据的准确性,提高数据的入湖效率,通过数据的离线合并可以更好的处理千万级大表的更新效率,避免实时数据处理卡住,最后通过实时表结构的数据库模式定义语言处理,可以保证数据入湖不会出现异常,保证数据的连贯性和整体入湖流程的稳定性。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
如图2所示,示出了本申请一实施例提供的一种基于分布式数据库的实时数据处理装置的结构框图;
具体包括:
第一生成模块810,用于获取各业务系统对应的数据源进行数据采集生成数据变化信息,并通过所述数据变化信息和所述数据源生成数据湖,其中,所述数据变化信息包括数据变更信息和表结构变更信息;
第二生成模块820,用于对所述数据湖内的消息数据进行数据分区生成数据表集合,其中,所述数据表集合内由若干个不相同主题的数据表组成;
更新模块830,用于依据所述数据变更信息确定所述数据表集合内所述消费数据的更新数据,并通过所述更新数据更新目标数据表;
变更模块840,用于通过所述表结构变更信息对所述目标数据表进行表结构变更处理。
在本发明一实施例中,所述第一生成模块810,包括:
第一确定子模块,用于对所述数据源进行分类确定所述数据源的数据库类型,其中,所述数据源类型包括第一数据库和第二数据库;
第一生成子模块,用于对所述第一数据库对应的所述数据源和所述第二数据库对应的所述数据源分别进行数据采集生成数据变化信息;
第二生成子模块,用于将所述数据变更信息、所述表结构变更信息和所述数据源接入至分布式数据库生成数据湖。
在本发明一实施例中,所述第一生成子模块,包括:
第一获取单元,用于当所述数据源为所述第一数据库的数据时,通过第一采集方式在所述数据源获取第一数据变更信息和第一表结构变更信息;和/或;
第二获取单元,用于当所述数据源为所述第二数据库的数据时,通过第二采集方式在所述数据源获取第二数据变更信息和第二表结构变更信息;
第一生成单元,用于依据所述第一数据变更信息和所述第二数据变更信息生成所述数据变更信息;
第二生成单元,用于依据所述第一表结构变更信息和所述第二数据变更信息生成所述表结构变更信息;
第三生成单元,用于依据所述数据变更信息和所述表结构变更信息生成所述数据变化信息。
在本发明一实施例中,所述第二生成模块820,包括:
第三生成子模块,用于通过Kafka集群构建若干个消息队列,依据若干个所述消息队列对所述消息数据进行筛选生成属于目标消息队列的所述消息数据;
第四生成子模块,用于依据所述目标消息队列以及所述目标消息队列对应的所述消息数据生成当前主题数据表,再通过其他消息队列以及所述其他消息队列的所述消息数据生成若干个其他主题数据表;
第五生成子模块,用于依据所述当前主题数据表和若干个所述其他主题表生成所述数据表集合。
在本发明一实施例中,所述更新模块830,包括:
第一获取子模块,用于获取所述数据表集合内各主题的所述消费数据;
第二确定子模块,用于通过所述数据变更信息确定所述消费数据中的所述更新数据以及所述更新数据对应的数据变化类型,其中,所述数据变化类型包括新增数据和删除数据;
第一更新子模块,用于依据所述更新数据和所述数据变化类型更新所述目标数据表。
在本发明一实施例中,所述第一更新子模块,包括:
第一合并单元,用于将所述数据变化类型为所述新增数据以及所述数据变化类型为所述删除数据的所述更新数据进行合并生成临时表;
第四生成单元,用于通过所述临时表完成对数据表的新增操作以及删除操作生成所述目标数据表。
在本发明一实施例中,所述变更模块840,包括:
第三确定子模块,用于依据所述所述表结构变更信息确定数据库模式定义语言脚本;
第六生成子模块,用于获取所述数据库模式定义语言脚本内的语句,并通过所述语句生成适用于所述分布式数据库的逻辑脚本;
第一处理子模块,用于依据所述逻辑脚本对所述目标数据表进行表结构变更处理。
参照图3,示出了本发明的一种基于分布式数据库的实时数据处理方法的计算机设备,具体可以包括如下:
上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线18结构中的一种或多种,包括存储器总线18或者存储器控制器,外围总线18,图形加速端口,处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线18,微通道体系结构(MAC)总线18,增强型ISA总线18、音视频电子标准协会(VESA)局域总线18以及外围组件互连(PCI)总线18。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块42,这些程序模块42被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信,还可与一个或者多个使得操作人员能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)界面22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)),广域网(WAN)和/或公共网络(例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白,尽管图3中未示出,可以结合计算机设备12使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的基于分布式数据库的实时数据处理方法。
也即,上述处理单元16执行上述程序时实现:获取各业务系统对应的数据源进行数据采集生成数据变化信息,并通过所述数据变化信息、所述数据源和分布式数据库Greenplum生成数据湖,其中,所述数据变化信息包括数据变更信息和表结构变更信息;对所述数据湖内的消息数据进行数据分区生成数据表集合,其中,所述数据表集合内由若干个不相同主题的数据表组成;依据所述数据变更信息确定所述数据表集合内所述消费数据的更新数据,并通过所述更新数据更新目标数据表;通过所述表结构变更信息对所述目标数据表进行表结构变更处理。
在本发明实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有实施例提供的基于分布式数据库的实时数据处理方法:
也即,给程序被处理器执行时实现:获取各业务系统对应的数据源进行数据采集生成数据变化信息,并通过所述数据变化信息、所述数据源和分布式数据库Greenplum生成数据湖,其中,所述数据变化信息包括数据变更信息和表结构变更信息;对所述数据湖内的消息数据进行数据分区生成数据表集合,其中,所述数据表集合内由若干个不相同主题的数据表组成;依据所述数据变更信息确定所述数据表集合内所述消费数据的更新数据,并通过所述更新数据更新目标数据表;通过所述表结构变更信息对所述目标数据表进行表结构变更处理。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在操作人员计算机上执行、部分地在操作人员计算机上执行、作为一个独立的软件包执行、部分在操作人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到操作人员计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种基于分布式数据库的实时数据处理方法及其装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种基于分布式数据库的实时数据处理方法,其特征在于,包括:
获取各业务系统对应的数据源进行数据采集生成数据变化信息,并通过所述数据变化信息、所述数据源和分布式数据库生成数据湖,其中,所述数据变化信息包括数据变更信息和表结构变更信息;
对所述数据湖内的消息数据进行数据分区生成数据表集合,其中,所述数据表集合内由若干个不相同主题的数据表组成;
依据所述数据变更信息确定所述数据表集合内所述消费数据的更新数据,并通过所述更新数据更新目标数据表;
通过所述表结构变更信息对所述目标数据表进行表结构变更处理。
2.根据权利要求1所述的方法,其特征在于,所述获取各业务系统对应的数据源进行数据采集生成数据变化信息,并通过所述数据变化信息、所述数据源和分布式数据库生成数据湖,其中,所述数据变化信息包括数据变更信息和表结构变更信息的步骤,包括:
对所述数据源进行分类确定所述数据源的数据库类型,其中,所述数据源类型包括第一数据库和第二数据库;
对所述第一数据库对应的所述数据源和所述第二数据库对应的所述数据源分别进行数据采集生成数据变化信息;
将所述数据变更信息、所述表结构变更信息和所述数据源接入至所述分布式数据库生成数据湖。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一数据库对应的所述数据源和所述第二数据库对应的所述数据源分别进行数据采集生成数据变化信息的步骤,包括:
当所述数据源为所述第一数据库的数据时,通过第一采集方式在所述数据源获取第一数据变更信息和第一表结构变更信息;
和/或;
当所述数据源为所述第二数据库的数据时,通过第二采集方式在所述数据源获取第二数据变更信息和第二表结构变更信息;
依据所述第一数据变更信息和所述第二数据变更信息生成所述数据变更信息;
依据所述第一表结构变更信息和所述第二数据变更信息生成所述表结构变更信息;
依据所述数据变更信息和所述表结构变更信息生成所述数据变化信息。
4.根据权利要求1所述的方法,其特征在于,所述对所述数据湖内的消息数据进行数据分区生成数据表集合,其中,所述数据表集合内由若干个不相同主题的数据表组成的步骤,包括:
通过Kafka集群构建若干个消息队列,依据若干个所述消息队列对所述消息数据进行筛选生成属于目标消息队列的所述消息数据;
依据所述目标消息队列以及所述目标消息队列对应的所述消息数据生成当前主题数据表,再通过其他消息队列以及所述其他消息队列的所述消息数据生成若干个其他主题数据表;
依据所述当前主题数据表和若干个所述其他主题表生成所述数据表集合。
5.根据权利要求1所述的方法,其特征在于,所述依据所述数据变更信息确定所述数据表集合内所述消费数据的更新数据,并通过所述更新数据更新目标数据表的步骤,包括:
获取所述数据表集合内各主题的所述消费数据;
通过所述数据变更信息确定所述消费数据中的所述更新数据以及所述更新数据对应的数据变化类型,其中,所述数据变化类型包括新增数据和删除数据;
依据所述更新数据和所述数据变化类型更新所述目标数据表。
6.根据权利要求5所述的方法,其特征在于,所述依据所述更新数据和所述数据变化类型更新所述目标数据表的步骤,包括:
将所述数据变化类型为所述新增数据以及所述数据变化类型为所述删除数据的所述更新数据进行合并生成临时表;
通过所述临时表完成对数据表的新增操作以及删除操作生成所述目标数据表。
7.根据权利要求1所述的方法,其特征在于,所述通过所述表结构变更信息对所述目标数据表进行表结构变更处理的步骤,包括:
依据所述所述表结构变更信息确定数据库模式定义语言脚本;
获取所述数据库模式定义语言脚本内的语句,并通过所述语句生成适用于所述分布式数据库的逻辑脚本;
依据所述逻辑脚本对所述目标数据表进行表结构变更处理。
8.一种基于分布式数据库的实时数据处理装置,其特征在于,包括:
第一生成模块,用于获取各业务系统对应的数据源进行数据采集生成数据变化信息,并通过所述数据变化信息和所述数据源生成数据湖,其中,所述数据变化信息包括数据变更信息和表结构变更信息;
第二生成模块,用于对所述数据湖内的消息数据进行数据分区生成数据表集合,其中,所述数据表集合内由若干个不相同主题的数据表组成;
更新模块,用于依据所述数据变更信息确定所述数据表集合内所述消费数据的更新数据,并通过所述更新数据更新目标数据表;
变更模块,用于通过所述表结构变更信息对所述目标数据表进行表结构变更处理。
9.一种计算机设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211019587.1A CN115391361A (zh) | 2022-08-24 | 2022-08-24 | 一种基于分布式数据库的实时数据处理方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211019587.1A CN115391361A (zh) | 2022-08-24 | 2022-08-24 | 一种基于分布式数据库的实时数据处理方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115391361A true CN115391361A (zh) | 2022-11-25 |
Family
ID=84123055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211019587.1A Pending CN115391361A (zh) | 2022-08-24 | 2022-08-24 | 一种基于分布式数据库的实时数据处理方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115391361A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116049190A (zh) * | 2023-01-18 | 2023-05-02 | 中电金信软件有限公司 | 基于Kafka的数据处理方法、装置、计算机设备和存储介质 |
CN116955504A (zh) * | 2023-09-21 | 2023-10-27 | 太平金融科技服务(上海)有限公司 | 一种数据处理方法、装置、电子设备和存储介质 |
CN118394772A (zh) * | 2024-07-01 | 2024-07-26 | 北京科杰科技有限公司 | 一种数据库表变动下的数据资产实时更新方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739929A (zh) * | 2018-12-18 | 2019-05-10 | 中国人民财产保险股份有限公司 | 数据同步方法、装置及系统 |
CN110633284A (zh) * | 2019-09-19 | 2019-12-31 | 中国工商银行股份有限公司 | 数据库中表的变更方法及装置 |
CN110795478A (zh) * | 2019-09-29 | 2020-02-14 | 北京淇瑀信息科技有限公司 | 一种应用于金融业务的数据仓库更新方法、装置和电子设备 |
WO2020147392A1 (zh) * | 2019-01-16 | 2020-07-23 | 平安科技(深圳)有限公司 | 数据库之间的数据同步方法和系统 |
CN114722119A (zh) * | 2022-03-30 | 2022-07-08 | 上海幻电信息科技有限公司 | 数据同步方法及系统 |
-
2022
- 2022-08-24 CN CN202211019587.1A patent/CN115391361A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739929A (zh) * | 2018-12-18 | 2019-05-10 | 中国人民财产保险股份有限公司 | 数据同步方法、装置及系统 |
WO2020147392A1 (zh) * | 2019-01-16 | 2020-07-23 | 平安科技(深圳)有限公司 | 数据库之间的数据同步方法和系统 |
CN110633284A (zh) * | 2019-09-19 | 2019-12-31 | 中国工商银行股份有限公司 | 数据库中表的变更方法及装置 |
CN110795478A (zh) * | 2019-09-29 | 2020-02-14 | 北京淇瑀信息科技有限公司 | 一种应用于金融业务的数据仓库更新方法、装置和电子设备 |
CN114722119A (zh) * | 2022-03-30 | 2022-07-08 | 上海幻电信息科技有限公司 | 数据同步方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116049190A (zh) * | 2023-01-18 | 2023-05-02 | 中电金信软件有限公司 | 基于Kafka的数据处理方法、装置、计算机设备和存储介质 |
CN116955504A (zh) * | 2023-09-21 | 2023-10-27 | 太平金融科技服务(上海)有限公司 | 一种数据处理方法、装置、电子设备和存储介质 |
CN116955504B (zh) * | 2023-09-21 | 2023-12-19 | 太平金融科技服务(上海)有限公司 | 一种数据处理方法、装置、电子设备和存储介质 |
CN118394772A (zh) * | 2024-07-01 | 2024-07-26 | 北京科杰科技有限公司 | 一种数据库表变动下的数据资产实时更新方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807067B (zh) | 关系型数据库和数据仓库的数据同步方法、装置及设备 | |
US20230004434A1 (en) | Automated reconfiguration of real time data stream processing | |
US20220004480A1 (en) | Log data collection method, log data collection device, storage medium, and log data collection system | |
CN110716910B (zh) | 一种日志管理方法、装置、设备和存储介质 | |
CN113254466B (zh) | 一种数据处理方法、装置、电子设备和存储介质 | |
CN115391361A (zh) | 一种基于分布式数据库的实时数据处理方法及其装置 | |
CN111339073A (zh) | 实时数据处理方法、装置、电子设备及可读存储介质 | |
CN103440290A (zh) | 大数据加载系统和方法 | |
CN113254445B (zh) | 实时数据存储方法、装置、计算机设备及存储介质 | |
CN108170832B (zh) | 一种面向工业大数据的异构数据库的监控系统及监控方法 | |
CN110147470B (zh) | 一种跨机房数据比对系统及方法 | |
CN111562885A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN115292414A (zh) | 一种业务数据同步到数仓的方法 | |
CN115033616A (zh) | 一种基于多轮采样的数据筛查规则验证方法及其装置 | |
CN118113766A (zh) | 批量数据处理方法、装置、设备及介质 | |
CN111897827B (zh) | 用于数据仓库的数据更新方法、系统及电子设备 | |
CN111049898A (zh) | 一种实现计算集群资源跨域架构的方法及系统 | |
CN111047427A (zh) | 数据上报方法、装置、服务器及存储介质 | |
CN115760013A (zh) | 运维模型的构建方法、装置、电子设备及存储介质 | |
CN116260703A (zh) | 分布式消息服务节点cpu性能故障自恢复方法及装置 | |
CN115514618A (zh) | 告警事件的处理方法、装置、电子设备和介质 | |
CN115033634A (zh) | 数据采集方法、装置、电子设备和介质 | |
CN113806556A (zh) | 基于电网数据的知识图谱的构建方法、装置、设备及介质 | |
CN113076254A (zh) | 一种测试用例集的生成方法和装置 | |
CN109710673B (zh) | 作品处理方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |