CN115658658A

CN115658658A - 一种企业数据中台基于批处理的数据共享方法、装置及存储介质

Info

Publication number: CN115658658A
Application number: CN202211364274.XA
Authority: CN
Inventors: 石春云; 罗雅英; 康锦锋; 栾江霞; 丁文波; 侯龙滨; 汪添生; 李海根
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-01-31

Abstract

本发明提出了一种企业数据中台基于批处理的数据共享方法、装置及存储介质，该方法包括：汇聚步骤，将来自多个源数据库的多个数据源基于数据资源目录生成汇聚数据库，并对所述源数据库中的数据源治理后生成对应的原始数据库；处理步骤，基于所述汇聚数据库中的数据资源目录对所述多个原始数据库中的数据进行数据开发后将结果数据按业务类型存储至主题数据库或业务数据库；共享步骤，基于所述主题数据库或业务数据库中的数据表结构构建对应的API，所述企业数据中台使用所述API提供对外数据服务。本发明生成的主题数据库及业务数据库中的数据更为准确，且生成效率高，且API是基于数据表的结构进行构建的，提高了数据利用的效率。

Description

一种企业数据中台基于批处理的数据共享方法、装置及存储介质

技术领域

本发明涉及计算机数据库及大数据技术领域，具体涉及一种企业数据中台基于批处理的数据共享方法、装置及存储介质。

背景技术

现有技术中，数字化转型吸引国有企业、大型企业立马加入此番浪潮，纷纷加入构建数据开发的队伍，希望以此加快企业的变革，颠覆传统的商业模式及高质量持续发展的瓶颈，加快企业研发团队数据开发的响应速度。主要的现状是：

一是使用主流的hadoop、kafka、ETL等技术，盲目跟风加入数据中台建设的队伍，多数企业将其理解为只是构建一个平台、一套软件系统或一个标准型产品；

二是对数据中台界定模糊且分类混乱，尚未厘清和明确概念和价值，为追求数据的实时性使用数据流处理的方式，常以构建数据仓库为主；

三是一味追求构建数据(集)报表与业务脱离关系，数据分析结果有误导致与经营决策相左，数据的准确性不足；

四是无法改变数据孤岛、业务割裂和资源难分配的现状并且研发团队出现重复开发，不利于提质增效，造成无效的开发成本投入。

五是基于大数据组件企业侧数据接入、治理流程冗长繁琐，且接入与治理分散独立，阻碍研发团队的效率。

即现有技术中，各企业数字化转型实践通过数据仓库、数据平台等技术实现方式，存在分类界定混乱、技术冗余重发开发、数据存储混乱、与业务关系割裂、数据丢包影响决策分析的问题。

发明内容

本发明针对上述现有技术中一个或多个技术缺陷，提出了如下技术方案。

一种企业数据中台基于批处理的数据共享方法，该方法包括：

汇聚步骤，将来自多个源数据库的多个数据源基于数据资源目录生成汇聚数据库，并对所述源数据库中的数据源治理后生成对应的原始数据库；

处理步骤，基于所述汇聚数据库中的数据资源目录对所述多个原始数据库中的数据进行数据开发后将结果数据按业务类型存储至主题数据库或业务数据库；

共享步骤，基于所述主题数据库或业务数据库中的数据表结构构建对应的API，所述企业数据中台使用所述API提供对外数据服务。

更进一步地，所述汇聚步骤的操作为：

注册数据资源目录：配置数据资源元数据；数据项注册，如果汇聚库的数据项与原始数据库一致，则自动生成，不需要单独注册，如果使用其它数据组织的数据项作为标准字段，则需要进行注册，需要注册的数据项包括标示符、字段编码、字段名称、字段类型、字段分类和字段分级；

数据治理：采用Flink，通过画布方式简化任务创建，集接入治理为一体，周期性的将数据接入汇聚数据库，治理后写入对应的原始数据库。

更进一步地，所述数据治理的操作为：

选择Flink运行环境创建数据汇集任务，配置运行jar包；获取需要汇聚的源数据库，按业务需要，源数据库包括：Oracle、MySql、SqlServer和MongoDB；在画布上编排节点，节点与节点之间通过连线关联：读取源数据库作为起始节点，在该起始节点上进行如下配置：数据集探查：配置数据更新方式：全量及增量；全量时数据的操作类型有插入更新删除(IDU)；增量时有插入(I)、插入更新(IU)；调度配置：配置任务的定时策略；字段探查：配置主键字段，备注字段的中文名称；读取目标库PostgreSql作为汇聚数据库，配置表名，将节点注册到数据资源目录，数据组织为汇聚数据库；读取“数据集映射”算子，选择数据资源目录，将源数据库的字段与汇聚数据库的标准字段一一对应；读取“格转”算子，选择要转换的字段，配置UDF函数，根据配置字段生成FlinkSql，调用UdfDateFormat函数处理；读取目标库HDFS作为对应的原始数据库，配置数据表名，并将节点注册到数据资源目录，数据治理完毕后生成对应的原始数据库。

更进一步地，所述处理步骤的操作为：对所述原始数据库中的数据进行建模开发，建模开发采用Spark作为计算引擎，提供数据源管理、模型编排、运行调度功能；数据源管理，支持从资源目录的原始数据库及知识库数据库中选取；模型编排，采用可视化的拖拉拽方式，用户无需进行编码，直接进行拖拉完成模型的搭建；使用Mongo作数据存储节点，并映射至数据资源目录的主题数据库或业务数据库。

更进一步地，在构建对应的API时，设置权限控制字段，在进行API调用时，基于该字段判断调用者是否有权限调用。

本发明还提出了一种企业数据中台基于批处理的数据共享装置，该装置包括：

汇聚单元，将来自多个源数据库的多个数据源基于数据资源目录生成汇聚数据库，并对所述源数据库中的数据源治理后生成对应的原始数据库；

处理单元，基于所述汇聚数据库中的数据资源目录对所述多个原始数据库中的数据进行数据开发后将结果数据按业务类型存储至主题数据库或业务数据库；

共享单元，基于所述主题数据库或业务数据库中的数据表结构构建对应的API，所述企业数据中台使用所述API提供对外数据服务。

更进一步地，所述汇聚单元的操作为：

更进一步地，所述数据治理的操作为：

更进一步地，所述处理单元的操作为：对所述原始数据库中的数据进行建模开发，建模开发采用Spark作为计算引擎，提供数据源管理、模型编排、运行调度功能；数据源管理，支持从资源目录的原始数据库及知识库数据库中选取；模型编排，采用可视化的拖拉拽方式，用户无需进行编码，直接进行拖拉完成模型的搭建；使用Mongo作数据存储节点，并映射至数据资源目录的主题数据库或业务数据库。

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于：本发明的一种企业数据中台基于批处理的数据共享方法、装置及存储介质，该方法包括：汇聚步骤，将来自多个源数据库的多个数据源基于数据资源目录生成汇聚数据库，并对所述源数据库中的数据源治理后生成对应的原始数据库；处理步骤，基于所述汇聚数据库中的数据资源目录对所述多个原始数据库中的数据进行数据开发后将结果数据按业务类型存储至主题数据库或业务数据库；共享步骤，基于所述主题数据库或业务数据库中的数据表结构构建对应的API，所述企业数据中台使用所述API提供对外数据服务。本发明中，先将来自多个源数据库的多个数据源基于数据资源目录生成汇聚数据库，并对所述源数据库中的数据源治理后生成对应的原始数据库，再基于所述汇聚数据库中的数据资源目录对所述多个原始数据库中的数据进行数据开发后将结果数据按业务类型存储至主题数据库或业务数据库，然后根据数据表的结构构建对应的API，对外提供服务，即本发明中，在构建主题数据库或业务数据库时是根据汇聚数据库中的数据资源目录对已经经过数据治理过的原始数据库生成的，原始数据库是基于来源数据库经过数据治理生成的，这样的生成方式，使得生成的主题数据库及业务数据库中的数据更为准确，且生成效率高；本发明中，通过上述汇聚及数据治理，其改变了现有技术中数据接入、治理流程冗长繁琐、分散独立的现状，企业侧数据中台技术底层设计基于Flink框架，设计并研发可视化、简易化的操作画布能够快速创建任务，将接入、治理实现融合一体，按需且周期地将数据分发至数据资源库，且引入批处理的定时调度技术，规避流处理的数据丢包问题，从而快速构建数据资源目录；本发明中的API是基于数据表的结构进行构建的，从而屏蔽了数据源和取数逻辑，通过把数据表API化，用户只需要关注API本身的查询逻辑，无需关心运行环境等基础设施，可以面向业务指标场景提供数据API和数据服务，提高了数据利用的效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种企业数据中台基于批处理的数据共享方法的流程图。

图2是根据本发明的实施例的一种企业数据中台基于批处理的数据共享装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种企业数据中台基于批处理的数据共享方法，该方法包括：

汇聚步骤S101，将来自多个源数据库的多个数据源基于数据资源目录生成汇聚数据库，并对所述源数据库中的数据源治理后生成对应的原始数据库；

处理步骤S102，基于所述汇聚数据库中的数据资源目录对所述多个原始数据库中的数据进行数据开发后将结果数据按业务类型存储至主题数据库或业务数据库；

共享步骤S103，基于所述主题数据库或业务数据库中的数据表结构构建对应的API，所述企业数据中台使用所述API提供对外数据服务。

本发明中，先将来自多个源数据库的多个数据源基于数据资源目录生成汇聚数据库，并对所述源数据库中的数据源治理后生成对应的原始数据库，再基于所述汇聚数据库中的数据资源目录对所述多个原始数据库中的数据进行数据开发后将结果数据按业务类型存储至主题数据库或业务数据库，然后根据数据表的结构构建对应的API，对外提供服务，即本发明中，在构建主题数据库或业务数据库时是根据汇聚数据库中的数据资源目录对已经经过数据治理过的原始数据库生成的，原始数据库是基于来源数据库经过数据治理生成的，这样的生成方式，使得生成的主题数据库及业务数据库中的数据更为准确，且生成效率高，这是本发明的重要发明点之一。

本发明中的汇聚数据库是在接入数据的时候能够给数据处理环提供数据的输入，同时保持接入数据的原样性，原滋原味的数据，方便核对验证数据的质量，能够追溯原始的模样；原始数据库是保留原始数据，能够反映原始业务场景的数据集合，并在此基础上补充对各种来源数据进行一系列处理加工后产生的标准化数据。原始库实现数据的标准化和价值增值，为各类应用提供基本的数据支撑，为数据融合、数据抽象和进一步增值完成数据准备，并支持信息溯源、原始场景回溯等业务需要；主题数据库是为了便利工作、精准快速地反映工作对象全貌而建立的融合各类原始数据、资源数据，围绕能标识人、财、物、组织等的主题对象，长期积累形成的多种维度的公共数据集合，包括人员主题库、组织主题库等。主题库从更高层次对主题对象进行抽象，形成了跨业务领域的统一视图，为数据的统一分析、统一服务提供了基础，从而对数据价值有了更高层次利用；知识数据库是指企业的知识数据和规则方法集合，包括数据接入、处理、治理、组织和服务需要的知识性数据，各种规则、方法、过程集合，以及领域各种通用模型需要的知识性数据、通用算法。主要包括基础知识库、基础算法库、规则库等；资源数据库是综合各类数据资源建立的关键要素(各种标识类属性，如公民身份号码、车牌号、手机号、MAC等)以及要素之间关联、关系的公共数据集合。主要包括：要素及要素的行为、内容(言论)的时空分布，同主体要素间关联的时空分布，不同主体间要素关系的时空分布等。资源库是公共数据，对各项业务工作都具有支撑作用，可以脱离任何业务而独立存在，也与每一项业务相关；业务数据库是各专业领域业务的数据库，支撑各专业领域业务的数据，记录业务过程，并为各业务活动提供数据的支撑等。

在一个进一步地的实施例中，所述汇聚步骤S101的操作为：

在一个进一步地的实施例中，所述数据治理的操作为：

本发明中，通过上述汇聚及数据治理，其改变了现有技术中数据接入、治理流程冗长繁琐、分散独立的现状，企业侧数据中台技术底层设计基于Flink框架，设计并研发可视化、简易化的操作画布能够快速创建任务，将接入、治理实现融合一体，按需且周期地将数据分发至数据资源库，且引入批处理的定时调度技术，规避流处理的数据丢包问题，从而快速构建数据资源目录。通过托拉拽的方式简化和便利研发数据接入、治理，对比现状可提升60％的效率，这是本发明的另一个重要发明点。

在一个进一步地的实施例中，所述处理步骤S102的操作为：对所述原始数据库中的数据进行建模开发，建模开发采用Spark作为计算引擎，提供数据源管理、模型编排、运行调度功能；数据源管理，支持从资源目录的原始数据库及知识库数据库中选取；模型编排，采用可视化的拖拉拽方式，用户无需进行编码，直接进行拖拉完成模型的搭建；使用Mongo作数据存储节点，并映射至数据资源目录的主题数据库或业务数据库。Spark建模平台集成了丰富的算子，用户在模型编排过程中，直接进行选择、配置就可完成模型编排过程中的运算需求；算子包含过滤、聚合、交集、并集、差集、连接、自连接、去重、列计算、类型转换、列转行、行转列、时间处理、值映射、缺失值处理、自定义SQL、表结构处理、输出等。

本发明通过基础设施的算子、算法、算力加强数据打标、数据模型的数据服务体系建设，与业务部门的紧密融合进一步抽象数据模型、封装数据服务，提高了数据处理的效率，这是本发明的另一个重要发明点。

在一个进一步地的实施例中，在构建对应的API时，设置权限控制字段，在进行API调用时，基于该字段判断调用者是否有权限调用。通过开发数据API，从而按照数据分级分类，作数据权限控制；通过数据交互平台对外提供中台的数据服务，管理者可监控所有API的调用情况，做到可见、可管。由于本发明中的API是基于数据表的结构进行构建的，从而屏蔽了数据源和取数逻辑，通过把数据表API化，用户只需要关注API本身的查询逻辑，无需关心运行环境等基础设施，可以面向业务指标场景提供数据API和数据服务。提高了数据利用的效率，这是本发明的另一个重要发明点。

图2示出了本发明的本发明的一种企业数据中台基于批处理的数据共享装置，该装置包括：

汇聚单元201，将来自多个源数据库的多个数据源基于数据资源目录生成汇聚数据库，并对所述源数据库中的数据源治理后生成对应的原始数据库；

处理单元202，基于所述汇聚数据库中的数据资源目录对所述多个原始数据库中的数据进行数据开发后将结果数据按业务类型存储至主题数据库或业务数据库；

共享单元203，基于所述主题数据库或业务数据库中的数据表结构构建对应的API，所述企业数据中台使用所述API提供对外数据服务。

在一个进一步地的实施例中，所述汇聚单元201的操作为：

在一个进一步地的实施例中，所述数据治理的操作为：

在一个进一步地的实施例中，所述处理单元202的操作为：对所述原始数据库中的数据进行建模开发，建模开发采用Spark作为计算引擎，提供数据源管理、模型编排、运行调度功能；数据源管理，支持从资源目录的原始数据库及知识库数据库中选取；模型编排，采用可视化的拖拉拽方式，用户无需进行编码，直接进行拖拉完成模型的搭建；使用Mongo作数据存储节点，并映射至数据资源目录的主题数据库或业务数据库。Spark建模平台集成了丰富的算子，用户在模型编排过程中，直接进行选择、配置就可完成模型编排过程中的运算需求；算子包含过滤、聚合、交集、并集、差集、连接、自连接、去重、列计算、类型转换、列转行、行转列、时间处理、值映射、缺失值处理、自定义SQL、表结构处理、输出等。

本发明的为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种企业数据中台基于批处理的数据共享方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述汇聚步骤的操作为：

3.根据权利要求2所述的方法，其特征在于，所述数据治理的操作为：

4.根据权利要求3所述的方法，其特征在于，所述处理步骤的操作为：对所述原始数据库中的数据进行建模开发，建模开发采用Spark作为计算引擎，提供数据源管理、模型编排、运行调度功能；数据源管理，支持从资源目录的原始数据库及知识库数据库中选取；模型编排，采用可视化的拖拉拽方式，用户无需进行编码，直接进行拖拉完成模型的搭建；使用Mongo作数据存储节点，并映射至数据资源目录的主题数据库或业务数据库。

5.根据权利要求4所述的方法，其特征在于，在构建对应的API时，设置权限控制字段，在进行API调用时，基于该字段判断调用者是否有权限调用。

6.一种企业数据中台基于批处理的数据共享装置，其特征在于，该装置包括：

7.根据权利要求6所述的装置，其特征在于，所述汇聚单元的操作为：

8.根据权利要求7所述的装置，其特征在于，所述数据治理的操作为：

9.根据权利要求8所述的装置，其特征在于，所述处理单元的操作为：对所述原始数据库中的数据进行建模开发，建模开发采用Spark作为计算引擎，提供数据源管理、模型编排、运行调度功能；数据源管理，支持从资源目录的原始数据库及知识库数据库中选取；模型编排，采用可视化的拖拉拽方式，用户无需进行编码，直接进行拖拉完成模型的搭建；使用Mongo作数据存储节点，并映射至数据资源目录的主题数据库或业务数据库。

10.一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述权利要求1-5之任一的方法。