CN112711634A

CN112711634A - 一种基于数据中台的数据开发方法

Info

Publication number: CN112711634A
Application number: CN202011594890.5A
Authority: CN
Inventors: 廖雅哲
Original assignee: Tech Valley Xiamen Information Technology Co ltd
Current assignee: Tech Valley Xiamen Information Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-27

Abstract

本发明公开了一种基于数据中台的数据开发方法，包括如下步骤：S1、数据源库通过中间传输载体FlinkX对接目标数据库；S2、FlinkX将所述数据源库中的数据周期性同步到目标数据库，并进行周期性清洗；S3、对所述数据进行存储计算转成数据表，所述离线数据的计算采用Spark计算引擎，所述实时数据的计算采用Flink计算引擎；S4、将计算后的数据表转化为数据API；S5、数据中台通过API网关发布数据API到API市场，或用户通过API网关直接调用数据API。本发明基于数据中台，将多种数据源的数据按离线数据和实时数据分别进行同步，然后转化成数据API，减少了开发人员的数据开发时间，降低了数据开发门槛、提高数据开发效率。

Description

一种基于数据中台的数据开发方法

技术领域

本发明涉及计算机技术领域，特别涉及一种基于数据中台的数据开发方法。

背景技术

随着互联网进入大数据时代，数据的来源类型开始多样化，在数据开发中，核心数据模型的变化是相对缓慢的，同时对数据进行维护的工作量也非常大，但业务创新的速度、对数据提出的需求的变化是非常快速的，这种开发速度的不匹配，导致在数据开发和应用开发之间出现了的响应力跟不上的问题。

发明内容

为解决上述问题，本发明提供了一种基于数据中台的数据开发方法。

本发明采用以下技术方案：

一种基于数据中台的数据开发方法，包括如下步骤：

S1、数据源库通过中间传输载体FlinkX对接目标数据库；

S2、FlinkX将所述数据源库中的数据周期性同步到目标数据库，并进行周期性清洗；

所述数据包括离线数据和实时数据，对所述离线数据进行全量数据同步，对所述实时数据进行增量数据同步；

S3、对所述数据进行存储计算转成数据表，所述离线数据的计算采用Spark计算引擎，所述实时数据的计算采用Flink计算引擎；

S4、将计算后的数据表转化为数据API；

S5、数据中台通过API网关发布数据API到API市场，或用户通过API网关直接调用数据API。

进一步地，步骤S4还可以利用现有的API直接注册生成数据API。

进一步地，所述FlinkX同步数据时采用的是星型数据链路。

进一步地，所述周期性即设定每天的同步时间和清洗时间，在所述同步时间开始时进行前一天数据的同步，在所述清洗时间开始时进行数据的清洗。

进一步地，所述全量数据同步即采用数据集成工具FlinkX主动批量拉取并直接写入到目标数据库。

进一步地，所述实时数据包括两种类型，分别为业务库的数据源和实时日志，所述业务库的数据源包括MySQL、Oracle或SQLServer，所述实时日志包括埋点日志、系统日志或应用日志。

进一步地，所述增量数据的同步具体为：首先进行同步历史数据的任务，同步完成后停掉下线，然后开始增量同步的任务，根据时间过滤条件将上个任务后增量的数据提取出来，然后同步至相应周期的分区表中。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

本发明基于数据中台，将多种数据源的数据按离线数据和实时数据分别进行同步，然后转化成数据API，通过API网关与前端对接，减少了开发人员的数据开发时间，降低了数据开发门槛、提高数据开发效率，同时也便于前端的直接调用，缩短了数据开发和数据应用的时间差，提高数据应用的效率。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

一种基于数据中台的数据开发方法，包括如下步骤：

S1、数据源库通过中间传输载体FlinkX对接目标数据库；

所述FlinkX同步数据时采用的是星型数据链路；这里FlinkX将原本复杂的网状同步链路变成了星型数据链路，FlinkX作为中间传输载体，负责连接各种数据源，当需要接入一个新的数据源的时候，只需要将此数据源对接到FlinkX，便能和已有的数据源做到无缝的数据同步。

所述周期性即设定每天的同步时间和清洗时间，在所述同步时间开始时进行前一天数据的同步，在所述清洗时间开始时进行数据的清洗；数据清洗即发现并纠正数据文件中可识别的错误，包括检查数据一致性、处理无效值和缺失值等。

所述全量数据同步即采用数据集成工具FlinkX主动批量拉取并直接写入到目标数据库。对于数据量小或时效要求不高的书，优选全量离线同步的方法，这种存储方式类似维度模型中的周期性快照的处理手法，消耗存储成本来换取易用性、容易理解、各种场景的应用都通用，这类存储方式比较适用于小型的维度数。

所述实时数据包括两种类型，分别为业务库的数据源和实时日志，所述业务库的数据源包括MySQL、Oracle或SQLServer，所述实时日志包括埋点日志、系统日志或应用日志。

所述增量数据的同步具体为：首先进行同步历史数据的任务，同步完成后停掉下线，然后开始增量同步的任务，根据时间过滤条件将上个任务后增量的数据提取出来，然后同步至相应周期的分区表中。增量数据同步的方法适用于数据量大，时效性要求高的场景，增量同步的数据表在后续的数据开发流程中需要进行合并清洗。

本实施例实时数据同步采用FlinkX集成工具的形式，支持Oracle、Mysql、Kafka、日志类等数据的实时采集和同步，以Kafka为例，数据源实时传进来之后，通过FlinkX进行数据接入，然后进入Kafka消息队列，Kafka对消息保存时根据主题进行分类，包含消息发送者和消息接收者，Kafka中的一个主题可以任务是一类消息，每个主题将被分成多个分区，每个分区在存储层面是appendlog文件，任何发布到此分区的消息都会被直接追加到log文件的尾部，一个主题的多个分区，被分布在Kafka中的多个服务上，每个服务进行负责分区中消息的读写操作，除此之外，Kafka还可以配置分区需要备份的个数，每个分区将会被备份到多台机器上，以提高可用性。

Kafka能够充分保证数据的高吞吐量，可以支持每秒数百万的消息，且制成并行加载数据、数以TB的消息存储也能够保持长时间的稳定性能。

此外，对于接口数据的采集，数据源连接方式为API接口方式，数据格式一般分为交叉维表表格式文件和JSON格式数据，统一采用Java程序访问APIJIEKOU，这里可以为FlinkX开发新的访问插件，专门用于接口同步，接口读取的工作作为一个任务，由FlinkX引擎来进行调度，周期性的执行。

S3、对所述数据进行存储计算转成数据表，所述离线数据的计算采用Spark计算引擎，所述实时数据的计算采用Flink计算引擎；面向海量的数据和复杂的计算，数据存储计算包括：批量计算和实时计算，所述批量计算即进行分布式存储与计算，需要提供从GB到EB级别的按需弹性伸缩的数据处理，主要针对离线数据，所述实时计算即采用分布式增量计算框架，需对海量数据提供低延迟、高并发、高可靠的实时计算，主要针对实时数据。这里批量计算主要采用Spark，实时计算主要采用Flink。

S4、将计算后的数据表转化为数据API；这里的转化通过编程实现。

步骤S4还可以利用现有的API直接注册生成数据API。

数据中台的应用层是对外提供中台的数据服务，数据API主要解决API快速生成和对外数据服务，API管理者可以利用产品的配置工具生成各类API服务，监控所有API的调用及订购情况，让自己的数据资产价值对外输出，同时可见、可管，与此同时，对于API使用者，可以看见API市场中所有的API，根据需求自助选取合适的API，开始自己的使用之旅，极大地提高了使用效率和易用性。

数据API通过产品化的方式，屏蔽了数据源和取数逻辑，通过把数据表API化，用户只需要关注API本身的查询逻辑，无需关心运行环境等基础设施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于数据中台的数据开发方法，其特征在于：包括如下步骤：

S1、数据源库通过中间传输载体FlinkX对接目标数据库；

S4、将计算后的数据表转化为数据API；

2.如权利要求1所述的一种基于数据中台的数据开发方法，其特征在于：步骤S4还可以利用现有的API直接注册生成数据API。

3.如权利要求1所述的一种基于数据中台的数据开发方法，其特征在于：所述FlinkX同步数据时采用的是星型数据链路。

4.如权利要求3所述的一种基于数据中台的数据开发方法，其特征在于：所述周期性即设定每天的同步时间和清洗时间，在所述同步时间开始时进行前一天数据的同步，在所述清洗时间开始时进行数据的清洗。

5.如权利要求4所述的一种基于数据中台的数据开发方法，其特征在于：所述全量数据同步即采用数据集成工具FlinkX主动批量拉取并直接写入到目标数据库。

6.如权利要求5所述的一种基于数据中台的数据开发方法，其特征在于：所述实时数据包括两种类型，分别为业务库的数据源和实时日志，所述业务库的数据源包括MySQL、Oracle或SQLServer，所述实时日志包括埋点日志、系统日志或应用日志。

7.如权利要求6所述的一种基于数据中台的数据开发方法，其特征在于：所述增量数据的同步具体为：首先进行同步历史数据的任务，同步完成后停掉下线，然后开始增量同步的任务，根据时间过滤条件将上个任务后增量的数据提取出来，然后同步至相应周期的分区表中。