CN112711634A - 一种基于数据中台的数据开发方法 - Google Patents

一种基于数据中台的数据开发方法 Download PDF

Info

Publication number
CN112711634A
CN112711634A CN202011594890.5A CN202011594890A CN112711634A CN 112711634 A CN112711634 A CN 112711634A CN 202011594890 A CN202011594890 A CN 202011594890A CN 112711634 A CN112711634 A CN 112711634A
Authority
CN
China
Prior art keywords
data
api
time
synchronization
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011594890.5A
Other languages
English (en)
Inventor
廖雅哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tech Valley Xiamen Information Technology Co ltd
Original Assignee
Tech Valley Xiamen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tech Valley Xiamen Information Technology Co ltd filed Critical Tech Valley Xiamen Information Technology Co ltd
Priority to CN202011594890.5A priority Critical patent/CN112711634A/zh
Publication of CN112711634A publication Critical patent/CN112711634A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于数据中台的数据开发方法,包括如下步骤:S1、数据源库通过中间传输载体FlinkX对接目标数据库;S2、FlinkX将所述数据源库中的数据周期性同步到目标数据库,并进行周期性清洗;S3、对所述数据进行存储计算转成数据表,所述离线数据的计算采用Spark计算引擎,所述实时数据的计算采用Flink计算引擎;S4、将计算后的数据表转化为数据API;S5、数据中台通过API网关发布数据API到API市场,或用户通过API网关直接调用数据API。本发明基于数据中台,将多种数据源的数据按离线数据和实时数据分别进行同步,然后转化成数据API,减少了开发人员的数据开发时间,降低了数据开发门槛、提高数据开发效率。

Description

一种基于数据中台的数据开发方法
技术领域
本发明涉及计算机技术领域,特别涉及一种基于数据中台的数据开发方法。
背景技术
随着互联网进入大数据时代,数据的来源类型开始多样化,在数据开发中,核心数据模型的变化是相对缓慢的,同时对数据进行维护的工作量也非常大,但业务创新的速度、对数据提出的需求的变化是非常快速的,这种开发速度的不匹配,导致在数据开发和应用开发之间出现了的响应力跟不上的问题。
发明内容
为解决上述问题,本发明提供了一种基于数据中台的数据开发方法。
本发明采用以下技术方案:
一种基于数据中台的数据开发方法,包括如下步骤:
S1、数据源库通过中间传输载体FlinkX对接目标数据库;
S2、FlinkX将所述数据源库中的数据周期性同步到目标数据库,并进行周期性清洗;
所述数据包括离线数据和实时数据,对所述离线数据进行全量数据同步,对所述实时数据进行增量数据同步;
S3、对所述数据进行存储计算转成数据表,所述离线数据的计算采用Spark计算引擎,所述实时数据的计算采用Flink计算引擎;
S4、将计算后的数据表转化为数据API;
S5、数据中台通过API网关发布数据API到API市场,或用户通过API网关直接调用数据API。
进一步地,步骤S4还可以利用现有的API直接注册生成数据API。
进一步地,所述FlinkX同步数据时采用的是星型数据链路。
进一步地,所述周期性即设定每天的同步时间和清洗时间,在所述同步时间开始时进行前一天数据的同步,在所述清洗时间开始时进行数据的清洗。
进一步地,所述全量数据同步即采用数据集成工具FlinkX主动批量拉取并直接写入到目标数据库。
进一步地,所述实时数据包括两种类型,分别为业务库的数据源和实时日志,所述业务库的数据源包括MySQL、Oracle或SQLServer,所述实时日志包括埋点日志、系统日志或应用日志。
进一步地,所述增量数据的同步具体为:首先进行同步历史数据的任务,同步完成后停掉下线,然后开始增量同步的任务,根据时间过滤条件将上个任务后增量的数据提取出来,然后同步至相应周期的分区表中。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明基于数据中台,将多种数据源的数据按离线数据和实时数据分别进行同步,然后转化成数据API,通过API网关与前端对接,减少了开发人员的数据开发时间,降低了数据开发门槛、提高数据开发效率,同时也便于前端的直接调用,缩短了数据开发和数据应用的时间差,提高数据应用的效率。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
一种基于数据中台的数据开发方法,包括如下步骤:
S1、数据源库通过中间传输载体FlinkX对接目标数据库;
S2、FlinkX将所述数据源库中的数据周期性同步到目标数据库,并进行周期性清洗;
所述FlinkX同步数据时采用的是星型数据链路;这里FlinkX将原本复杂的网状同步链路变成了星型数据链路,FlinkX作为中间传输载体,负责连接各种数据源,当需要接入一个新的数据源的时候,只需要将此数据源对接到FlinkX,便能和已有的数据源做到无缝的数据同步。
所述周期性即设定每天的同步时间和清洗时间,在所述同步时间开始时进行前一天数据的同步,在所述清洗时间开始时进行数据的清洗;数据清洗即发现并纠正数据文件中可识别的错误,包括检查数据一致性、处理无效值和缺失值等。
所述数据包括离线数据和实时数据,对所述离线数据进行全量数据同步,对所述实时数据进行增量数据同步;
所述全量数据同步即采用数据集成工具FlinkX主动批量拉取并直接写入到目标数据库。对于数据量小或时效要求不高的书,优选全量离线同步的方法,这种存储方式类似维度模型中的周期性快照的处理手法,消耗存储成本来换取易用性、容易理解、各种场景的应用都通用,这类存储方式比较适用于小型的维度数。
所述实时数据包括两种类型,分别为业务库的数据源和实时日志,所述业务库的数据源包括MySQL、Oracle或SQLServer,所述实时日志包括埋点日志、系统日志或应用日志。
所述增量数据的同步具体为:首先进行同步历史数据的任务,同步完成后停掉下线,然后开始增量同步的任务,根据时间过滤条件将上个任务后增量的数据提取出来,然后同步至相应周期的分区表中。增量数据同步的方法适用于数据量大,时效性要求高的场景,增量同步的数据表在后续的数据开发流程中需要进行合并清洗。
本实施例实时数据同步采用FlinkX集成工具的形式,支持Oracle、Mysql、Kafka、日志类等数据的实时采集和同步,以Kafka为例,数据源实时传进来之后,通过FlinkX进行数据接入,然后进入Kafka消息队列,Kafka对消息保存时根据主题进行分类,包含消息发送者和消息接收者,Kafka中的一个主题可以任务是一类消息,每个主题将被分成多个分区,每个分区在存储层面是appendlog文件,任何发布到此分区的消息都会被直接追加到log文件的尾部,一个主题的多个分区,被分布在Kafka中的多个服务上,每个服务进行负责分区中消息的读写操作,除此之外,Kafka还可以配置分区需要备份的个数,每个分区将会被备份到多台机器上,以提高可用性。
Kafka能够充分保证数据的高吞吐量,可以支持每秒数百万的消息,且制成并行加载数据、数以TB的消息存储也能够保持长时间的稳定性能。
此外,对于接口数据的采集,数据源连接方式为API接口方式,数据格式一般分为交叉维表表格式文件和JSON格式数据,统一采用Java程序访问APIJIEKOU,这里可以为FlinkX开发新的访问插件,专门用于接口同步,接口读取的工作作为一个任务,由FlinkX引擎来进行调度,周期性的执行。
S3、对所述数据进行存储计算转成数据表,所述离线数据的计算采用Spark计算引擎,所述实时数据的计算采用Flink计算引擎;面向海量的数据和复杂的计算,数据存储计算包括:批量计算和实时计算,所述批量计算即进行分布式存储与计算,需要提供从GB到EB级别的按需弹性伸缩的数据处理,主要针对离线数据,所述实时计算即采用分布式增量计算框架,需对海量数据提供低延迟、高并发、高可靠的实时计算,主要针对实时数据。这里批量计算主要采用Spark,实时计算主要采用Flink。
S4、将计算后的数据表转化为数据API;这里的转化通过编程实现。
步骤S4还可以利用现有的API直接注册生成数据API。
S5、数据中台通过API网关发布数据API到API市场,或用户通过API网关直接调用数据API。
数据中台的应用层是对外提供中台的数据服务,数据API主要解决API快速生成和对外数据服务,API管理者可以利用产品的配置工具生成各类API服务,监控所有API的调用及订购情况,让自己的数据资产价值对外输出,同时可见、可管,与此同时,对于API使用者,可以看见API市场中所有的API,根据需求自助选取合适的API,开始自己的使用之旅,极大地提高了使用效率和易用性。
数据API通过产品化的方式,屏蔽了数据源和取数逻辑,通过把数据表API化,用户只需要关注API本身的查询逻辑,无需关心运行环境等基础设施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (7)

1.一种基于数据中台的数据开发方法,其特征在于:包括如下步骤:
S1、数据源库通过中间传输载体FlinkX对接目标数据库;
S2、FlinkX将所述数据源库中的数据周期性同步到目标数据库,并进行周期性清洗;
所述数据包括离线数据和实时数据,对所述离线数据进行全量数据同步,对所述实时数据进行增量数据同步;
S3、对所述数据进行存储计算转成数据表,所述离线数据的计算采用Spark计算引擎,所述实时数据的计算采用Flink计算引擎;
S4、将计算后的数据表转化为数据API;
S5、数据中台通过API网关发布数据API到API市场,或用户通过API网关直接调用数据API。
2.如权利要求1所述的一种基于数据中台的数据开发方法,其特征在于:步骤S4还可以利用现有的API直接注册生成数据API。
3.如权利要求1所述的一种基于数据中台的数据开发方法,其特征在于:所述FlinkX同步数据时采用的是星型数据链路。
4.如权利要求3所述的一种基于数据中台的数据开发方法,其特征在于:所述周期性即设定每天的同步时间和清洗时间,在所述同步时间开始时进行前一天数据的同步,在所述清洗时间开始时进行数据的清洗。
5.如权利要求4所述的一种基于数据中台的数据开发方法,其特征在于:所述全量数据同步即采用数据集成工具FlinkX主动批量拉取并直接写入到目标数据库。
6.如权利要求5所述的一种基于数据中台的数据开发方法,其特征在于:所述实时数据包括两种类型,分别为业务库的数据源和实时日志,所述业务库的数据源包括MySQL、Oracle或SQLServer,所述实时日志包括埋点日志、系统日志或应用日志。
7.如权利要求6所述的一种基于数据中台的数据开发方法,其特征在于:所述增量数据的同步具体为:首先进行同步历史数据的任务,同步完成后停掉下线,然后开始增量同步的任务,根据时间过滤条件将上个任务后增量的数据提取出来,然后同步至相应周期的分区表中。
CN202011594890.5A 2020-12-29 2020-12-29 一种基于数据中台的数据开发方法 Pending CN112711634A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011594890.5A CN112711634A (zh) 2020-12-29 2020-12-29 一种基于数据中台的数据开发方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011594890.5A CN112711634A (zh) 2020-12-29 2020-12-29 一种基于数据中台的数据开发方法

Publications (1)

Publication Number Publication Date
CN112711634A true CN112711634A (zh) 2021-04-27

Family

ID=75546342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011594890.5A Pending CN112711634A (zh) 2020-12-29 2020-12-29 一种基于数据中台的数据开发方法

Country Status (1)

Country Link
CN (1) CN112711634A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656370A (zh) * 2021-08-16 2021-11-16 南方电网数字电网研究院有限公司 电力量测系统数据处理方法、装置和计算机设备
CN114116842A (zh) * 2021-11-25 2022-03-01 上海柯林布瑞信息技术有限公司 多维医疗数据实时获取方法、装置、电子设备及存储介质
CN115391448A (zh) * 2022-10-08 2022-11-25 数兑科技(杭州)有限公司 一种智能化用数方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2891994A1 (en) * 2013-11-04 2015-07-08 Guangdong Electronics Industry Institute Ltd. Method for achieving automatic synchronization of multisource heterogeneous data resources
CN111046022A (zh) * 2019-12-04 2020-04-21 山西云时代技术有限公司 一种基于大数据技术的数据库审计方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2891994A1 (en) * 2013-11-04 2015-07-08 Guangdong Electronics Industry Institute Ltd. Method for achieving automatic synchronization of multisource heterogeneous data resources
CN111046022A (zh) * 2019-12-04 2020-04-21 山西云时代技术有限公司 一种基于大数据技术的数据库审计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
U011663641: "FlinkX—批流统一的高效数据同步插件", 《CSDN》 *
卜意磊等: "基于数据中台的市场监管数据资源中心架构设计", 《电子技术与软件工程》 *
孙云等: "轨道交通安保大数据平台建设与应用", 《警察技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656370A (zh) * 2021-08-16 2021-11-16 南方电网数字电网研究院有限公司 电力量测系统数据处理方法、装置和计算机设备
CN113656370B (zh) * 2021-08-16 2024-04-30 南方电网数字电网集团有限公司 电力量测系统数据处理方法、装置和计算机设备
CN114116842A (zh) * 2021-11-25 2022-03-01 上海柯林布瑞信息技术有限公司 多维医疗数据实时获取方法、装置、电子设备及存储介质
CN114116842B (zh) * 2021-11-25 2023-05-19 上海柯林布瑞信息技术有限公司 多维医疗数据实时获取方法、装置、电子设备及存储介质
CN115391448A (zh) * 2022-10-08 2022-11-25 数兑科技(杭州)有限公司 一种智能化用数方法
CN115391448B (zh) * 2022-10-08 2023-02-03 数兑科技(杭州)有限公司 一种智能化用数方法

Similar Documents

Publication Publication Date Title
CN112711634A (zh) 一种基于数据中台的数据开发方法
CN108696595A (zh) 分布式集群数据同步方法、主节点、从节点、系统及介质
US20120246116A1 (en) System and method for data replication between heterogeneous databases
TWI701567B (zh) 針對資料庫的資料修改請求處理方法和裝置
CN113987064A (zh) 数据处理方法、系统及设备
CN109901948B (zh) 无共享数据库集群异地双活容灾系统
CN106339387B (zh) 一种数据库集群中新增服务器的数据同步方法及装置
CN105740248A (zh) 一种数据同步方法、装置及系统
CN112988702A (zh) 异构数据源实时数据传输方法及系统、存储介质及终端
CN112035563A (zh) 一种基于共享存储的实时数据库系统
CN105989065B (zh) 一种闪拍数据处理方法及系统
US8090695B2 (en) Dynamic restoration of message object search indexes
CN114579532A (zh) 处理预写日志的方法、装置及系统
WO2024103898A1 (zh) 数据库集群管理的方法和装置
US20220261297A1 (en) Near-real-time data processing with partition files
WO2023246236A1 (zh) 分布式数据库的节点配置方法、事务日志同步方法和节点
CN113297159A (zh) 数据存储方法以及装置
CN112181724A (zh) 大数据容灾方法、装置和电子设备
CN111931105A (zh) 一种kafka消费指定推送时间数据处理方法
CN114564458B (zh) 集群间数据同步的方法、装置、设备和存储介质
CN115757642A (zh) 一种基于归档日志文件的数据同步方法及装置
CN115357395A (zh) 故障设备任务转移方法及系统、电子设备和存储介质
CN115167971A (zh) 一种基于云平台的高可用MySQL部署方法及系统
CN110955722B (zh) 数据同步方法及装置
CN113055378A (zh) 用于工业互联网标识解析的协议转换平台及数据对接方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination