CN112711634A - 一种基于数据中台的数据开发方法 - Google Patents
一种基于数据中台的数据开发方法 Download PDFInfo
- Publication number
- CN112711634A CN112711634A CN202011594890.5A CN202011594890A CN112711634A CN 112711634 A CN112711634 A CN 112711634A CN 202011594890 A CN202011594890 A CN 202011594890A CN 112711634 A CN112711634 A CN 112711634A
- Authority
- CN
- China
- Prior art keywords
- data
- api
- time
- synchronization
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据中台的数据开发方法,包括如下步骤:S1、数据源库通过中间传输载体FlinkX对接目标数据库;S2、FlinkX将所述数据源库中的数据周期性同步到目标数据库,并进行周期性清洗;S3、对所述数据进行存储计算转成数据表,所述离线数据的计算采用Spark计算引擎,所述实时数据的计算采用Flink计算引擎;S4、将计算后的数据表转化为数据API;S5、数据中台通过API网关发布数据API到API市场,或用户通过API网关直接调用数据API。本发明基于数据中台,将多种数据源的数据按离线数据和实时数据分别进行同步,然后转化成数据API,减少了开发人员的数据开发时间,降低了数据开发门槛、提高数据开发效率。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种基于数据中台的数据开发方法。
背景技术
随着互联网进入大数据时代,数据的来源类型开始多样化,在数据开发中,核心数据模型的变化是相对缓慢的,同时对数据进行维护的工作量也非常大,但业务创新的速度、对数据提出的需求的变化是非常快速的,这种开发速度的不匹配,导致在数据开发和应用开发之间出现了的响应力跟不上的问题。
发明内容
为解决上述问题,本发明提供了一种基于数据中台的数据开发方法。
本发明采用以下技术方案:
一种基于数据中台的数据开发方法,包括如下步骤:
S1、数据源库通过中间传输载体FlinkX对接目标数据库;
S2、FlinkX将所述数据源库中的数据周期性同步到目标数据库,并进行周期性清洗;
所述数据包括离线数据和实时数据,对所述离线数据进行全量数据同步,对所述实时数据进行增量数据同步;
S3、对所述数据进行存储计算转成数据表,所述离线数据的计算采用Spark计算引擎,所述实时数据的计算采用Flink计算引擎;
S4、将计算后的数据表转化为数据API;
S5、数据中台通过API网关发布数据API到API市场,或用户通过API网关直接调用数据API。
进一步地,步骤S4还可以利用现有的API直接注册生成数据API。
进一步地,所述FlinkX同步数据时采用的是星型数据链路。
进一步地,所述周期性即设定每天的同步时间和清洗时间,在所述同步时间开始时进行前一天数据的同步,在所述清洗时间开始时进行数据的清洗。
进一步地,所述全量数据同步即采用数据集成工具FlinkX主动批量拉取并直接写入到目标数据库。
进一步地,所述实时数据包括两种类型,分别为业务库的数据源和实时日志,所述业务库的数据源包括MySQL、Oracle或SQLServer,所述实时日志包括埋点日志、系统日志或应用日志。
进一步地,所述增量数据的同步具体为:首先进行同步历史数据的任务,同步完成后停掉下线,然后开始增量同步的任务,根据时间过滤条件将上个任务后增量的数据提取出来,然后同步至相应周期的分区表中。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明基于数据中台,将多种数据源的数据按离线数据和实时数据分别进行同步,然后转化成数据API,通过API网关与前端对接,减少了开发人员的数据开发时间,降低了数据开发门槛、提高数据开发效率,同时也便于前端的直接调用,缩短了数据开发和数据应用的时间差,提高数据应用的效率。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
一种基于数据中台的数据开发方法,包括如下步骤:
S1、数据源库通过中间传输载体FlinkX对接目标数据库;
S2、FlinkX将所述数据源库中的数据周期性同步到目标数据库,并进行周期性清洗;
所述FlinkX同步数据时采用的是星型数据链路;这里FlinkX将原本复杂的网状同步链路变成了星型数据链路,FlinkX作为中间传输载体,负责连接各种数据源,当需要接入一个新的数据源的时候,只需要将此数据源对接到FlinkX,便能和已有的数据源做到无缝的数据同步。
所述周期性即设定每天的同步时间和清洗时间,在所述同步时间开始时进行前一天数据的同步,在所述清洗时间开始时进行数据的清洗;数据清洗即发现并纠正数据文件中可识别的错误,包括检查数据一致性、处理无效值和缺失值等。
所述数据包括离线数据和实时数据,对所述离线数据进行全量数据同步,对所述实时数据进行增量数据同步;
所述全量数据同步即采用数据集成工具FlinkX主动批量拉取并直接写入到目标数据库。对于数据量小或时效要求不高的书,优选全量离线同步的方法,这种存储方式类似维度模型中的周期性快照的处理手法,消耗存储成本来换取易用性、容易理解、各种场景的应用都通用,这类存储方式比较适用于小型的维度数。
所述实时数据包括两种类型,分别为业务库的数据源和实时日志,所述业务库的数据源包括MySQL、Oracle或SQLServer,所述实时日志包括埋点日志、系统日志或应用日志。
所述增量数据的同步具体为:首先进行同步历史数据的任务,同步完成后停掉下线,然后开始增量同步的任务,根据时间过滤条件将上个任务后增量的数据提取出来,然后同步至相应周期的分区表中。增量数据同步的方法适用于数据量大,时效性要求高的场景,增量同步的数据表在后续的数据开发流程中需要进行合并清洗。
本实施例实时数据同步采用FlinkX集成工具的形式,支持Oracle、Mysql、Kafka、日志类等数据的实时采集和同步,以Kafka为例,数据源实时传进来之后,通过FlinkX进行数据接入,然后进入Kafka消息队列,Kafka对消息保存时根据主题进行分类,包含消息发送者和消息接收者,Kafka中的一个主题可以任务是一类消息,每个主题将被分成多个分区,每个分区在存储层面是appendlog文件,任何发布到此分区的消息都会被直接追加到log文件的尾部,一个主题的多个分区,被分布在Kafka中的多个服务上,每个服务进行负责分区中消息的读写操作,除此之外,Kafka还可以配置分区需要备份的个数,每个分区将会被备份到多台机器上,以提高可用性。
Kafka能够充分保证数据的高吞吐量,可以支持每秒数百万的消息,且制成并行加载数据、数以TB的消息存储也能够保持长时间的稳定性能。
此外,对于接口数据的采集,数据源连接方式为API接口方式,数据格式一般分为交叉维表表格式文件和JSON格式数据,统一采用Java程序访问APIJIEKOU,这里可以为FlinkX开发新的访问插件,专门用于接口同步,接口读取的工作作为一个任务,由FlinkX引擎来进行调度,周期性的执行。
S3、对所述数据进行存储计算转成数据表,所述离线数据的计算采用Spark计算引擎,所述实时数据的计算采用Flink计算引擎;面向海量的数据和复杂的计算,数据存储计算包括:批量计算和实时计算,所述批量计算即进行分布式存储与计算,需要提供从GB到EB级别的按需弹性伸缩的数据处理,主要针对离线数据,所述实时计算即采用分布式增量计算框架,需对海量数据提供低延迟、高并发、高可靠的实时计算,主要针对实时数据。这里批量计算主要采用Spark,实时计算主要采用Flink。
S4、将计算后的数据表转化为数据API;这里的转化通过编程实现。
步骤S4还可以利用现有的API直接注册生成数据API。
S5、数据中台通过API网关发布数据API到API市场,或用户通过API网关直接调用数据API。
数据中台的应用层是对外提供中台的数据服务,数据API主要解决API快速生成和对外数据服务,API管理者可以利用产品的配置工具生成各类API服务,监控所有API的调用及订购情况,让自己的数据资产价值对外输出,同时可见、可管,与此同时,对于API使用者,可以看见API市场中所有的API,根据需求自助选取合适的API,开始自己的使用之旅,极大地提高了使用效率和易用性。
数据API通过产品化的方式,屏蔽了数据源和取数逻辑,通过把数据表API化,用户只需要关注API本身的查询逻辑,无需关心运行环境等基础设施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (7)
1.一种基于数据中台的数据开发方法,其特征在于:包括如下步骤:
S1、数据源库通过中间传输载体FlinkX对接目标数据库;
S2、FlinkX将所述数据源库中的数据周期性同步到目标数据库,并进行周期性清洗;
所述数据包括离线数据和实时数据,对所述离线数据进行全量数据同步,对所述实时数据进行增量数据同步;
S3、对所述数据进行存储计算转成数据表,所述离线数据的计算采用Spark计算引擎,所述实时数据的计算采用Flink计算引擎;
S4、将计算后的数据表转化为数据API;
S5、数据中台通过API网关发布数据API到API市场,或用户通过API网关直接调用数据API。
2.如权利要求1所述的一种基于数据中台的数据开发方法,其特征在于:步骤S4还可以利用现有的API直接注册生成数据API。
3.如权利要求1所述的一种基于数据中台的数据开发方法,其特征在于:所述FlinkX同步数据时采用的是星型数据链路。
4.如权利要求3所述的一种基于数据中台的数据开发方法,其特征在于:所述周期性即设定每天的同步时间和清洗时间,在所述同步时间开始时进行前一天数据的同步,在所述清洗时间开始时进行数据的清洗。
5.如权利要求4所述的一种基于数据中台的数据开发方法,其特征在于:所述全量数据同步即采用数据集成工具FlinkX主动批量拉取并直接写入到目标数据库。
6.如权利要求5所述的一种基于数据中台的数据开发方法,其特征在于:所述实时数据包括两种类型,分别为业务库的数据源和实时日志,所述业务库的数据源包括MySQL、Oracle或SQLServer,所述实时日志包括埋点日志、系统日志或应用日志。
7.如权利要求6所述的一种基于数据中台的数据开发方法,其特征在于:所述增量数据的同步具体为:首先进行同步历史数据的任务,同步完成后停掉下线,然后开始增量同步的任务,根据时间过滤条件将上个任务后增量的数据提取出来,然后同步至相应周期的分区表中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011594890.5A CN112711634A (zh) | 2020-12-29 | 2020-12-29 | 一种基于数据中台的数据开发方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011594890.5A CN112711634A (zh) | 2020-12-29 | 2020-12-29 | 一种基于数据中台的数据开发方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112711634A true CN112711634A (zh) | 2021-04-27 |
Family
ID=75546342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011594890.5A Pending CN112711634A (zh) | 2020-12-29 | 2020-12-29 | 一种基于数据中台的数据开发方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112711634A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656370A (zh) * | 2021-08-16 | 2021-11-16 | 南方电网数字电网研究院有限公司 | 电力量测系统数据处理方法、装置和计算机设备 |
CN114116842A (zh) * | 2021-11-25 | 2022-03-01 | 上海柯林布瑞信息技术有限公司 | 多维医疗数据实时获取方法、装置、电子设备及存储介质 |
CN115391448A (zh) * | 2022-10-08 | 2022-11-25 | 数兑科技(杭州)有限公司 | 一种智能化用数方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2891994A1 (en) * | 2013-11-04 | 2015-07-08 | Guangdong Electronics Industry Institute Ltd. | Method for achieving automatic synchronization of multisource heterogeneous data resources |
CN111046022A (zh) * | 2019-12-04 | 2020-04-21 | 山西云时代技术有限公司 | 一种基于大数据技术的数据库审计方法 |
-
2020
- 2020-12-29 CN CN202011594890.5A patent/CN112711634A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2891994A1 (en) * | 2013-11-04 | 2015-07-08 | Guangdong Electronics Industry Institute Ltd. | Method for achieving automatic synchronization of multisource heterogeneous data resources |
CN111046022A (zh) * | 2019-12-04 | 2020-04-21 | 山西云时代技术有限公司 | 一种基于大数据技术的数据库审计方法 |
Non-Patent Citations (3)
Title |
---|
U011663641: "FlinkX—批流统一的高效数据同步插件", 《CSDN》 * |
卜意磊等: "基于数据中台的市场监管数据资源中心架构设计", 《电子技术与软件工程》 * |
孙云等: "轨道交通安保大数据平台建设与应用", 《警察技术》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656370A (zh) * | 2021-08-16 | 2021-11-16 | 南方电网数字电网研究院有限公司 | 电力量测系统数据处理方法、装置和计算机设备 |
CN113656370B (zh) * | 2021-08-16 | 2024-04-30 | 南方电网数字电网集团有限公司 | 电力量测系统数据处理方法、装置和计算机设备 |
CN114116842A (zh) * | 2021-11-25 | 2022-03-01 | 上海柯林布瑞信息技术有限公司 | 多维医疗数据实时获取方法、装置、电子设备及存储介质 |
CN114116842B (zh) * | 2021-11-25 | 2023-05-19 | 上海柯林布瑞信息技术有限公司 | 多维医疗数据实时获取方法、装置、电子设备及存储介质 |
CN115391448A (zh) * | 2022-10-08 | 2022-11-25 | 数兑科技(杭州)有限公司 | 一种智能化用数方法 |
CN115391448B (zh) * | 2022-10-08 | 2023-02-03 | 数兑科技(杭州)有限公司 | 一种智能化用数方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112711634A (zh) | 一种基于数据中台的数据开发方法 | |
CN108696595A (zh) | 分布式集群数据同步方法、主节点、从节点、系统及介质 | |
US20120246116A1 (en) | System and method for data replication between heterogeneous databases | |
TWI701567B (zh) | 針對資料庫的資料修改請求處理方法和裝置 | |
CN113987064A (zh) | 数据处理方法、系统及设备 | |
CN109901948B (zh) | 无共享数据库集群异地双活容灾系统 | |
CN106339387B (zh) | 一种数据库集群中新增服务器的数据同步方法及装置 | |
CN105740248A (zh) | 一种数据同步方法、装置及系统 | |
CN112988702A (zh) | 异构数据源实时数据传输方法及系统、存储介质及终端 | |
CN112035563A (zh) | 一种基于共享存储的实时数据库系统 | |
CN105989065B (zh) | 一种闪拍数据处理方法及系统 | |
US8090695B2 (en) | Dynamic restoration of message object search indexes | |
CN114579532A (zh) | 处理预写日志的方法、装置及系统 | |
WO2024103898A1 (zh) | 数据库集群管理的方法和装置 | |
US20220261297A1 (en) | Near-real-time data processing with partition files | |
WO2023246236A1 (zh) | 分布式数据库的节点配置方法、事务日志同步方法和节点 | |
CN113297159A (zh) | 数据存储方法以及装置 | |
CN112181724A (zh) | 大数据容灾方法、装置和电子设备 | |
CN111931105A (zh) | 一种kafka消费指定推送时间数据处理方法 | |
CN114564458B (zh) | 集群间数据同步的方法、装置、设备和存储介质 | |
CN115757642A (zh) | 一种基于归档日志文件的数据同步方法及装置 | |
CN115357395A (zh) | 故障设备任务转移方法及系统、电子设备和存储介质 | |
CN115167971A (zh) | 一种基于云平台的高可用MySQL部署方法及系统 | |
CN110955722B (zh) | 数据同步方法及装置 | |
CN113055378A (zh) | 用于工业互联网标识解析的协议转换平台及数据对接方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |