CN116894040A

CN116894040A - 多源异构离线数据处理方法、系统、设备和介质

Info

Publication number: CN116894040A
Application number: CN202311080995.2A
Authority: CN
Inventors: 刘洋; 曹林; 涂平; 梁春峰; 张林宇; 刘准; 贺群雄; 仇亚龙; 贺若龙; 李志超; 彭中益; 王斯政; 廖佳佳; 刘博�
Original assignee: China Power Industry Internet Co ltd
Current assignee: China Power Industry Internet Co ltd
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-10-17

Abstract

本申请涉及多源异构离线数据处理方法、系统、设备和介质，该方法通过基于可视界面配置减少人工操作，降低系统开发难度；采用DAG插件数据表配置实现零代码开发，表关系动态编排增加灵活性；设计数据表实体建模模型，对集成插件中数据表进行特征建模；设计多源类型建表语句模板，减少人工编码，统一数据源连接，增加系统扩展性；设计多源建表实例构建过程，自动构建目标表建表语句；设计多源类型目标表创建过程，自主完成高效的目标表创建操作；最终，通过离线数据表处理实现数据集成在多个环节上一体化，大幅降低了多源异构类型数据表的离线数据处理复杂度。

Description

多源异构离线数据处理方法、系统、设备和介质

技术领域

本发明属于数据处理技术领域，涉及一种多源异构离线数据处理方法、系统、设备和介质。

背景技术

目前，从边缘端到云端或大数据平台的海量数据同步，基于多种异构数据源的离线数据处理已是重要技术手段，多源数据表构建是数据处理的关键环节，而打造统一高效的多源系统数据表构建方法与规范，则是实现海量离线数据处理的重要前提。随着物联网的快速发展，工业数据类型呈现多样性与复杂化，数据来源各异且难以统一管理与控制。目前，针对多源异构工业系统的离线数据处理，大多数传统方法存在数据处理效率低下且缺乏灵活性与扩展性等缺陷，尤其在采用数据表处理异构数据时，往往需要手动定义数据处理映射规则，并借助多种外部工具依次连接数据库，才能进行有效的目标表数据处理操作。随着业务场景复杂化而人工操作过于繁重，数据处理变得非常困难，且数据安全性难以得到保障。

现阶段，很多学者深入研究基于异构类型数据表的离线数据处理方法，并取得了一定的研究成果，例如通过预处理数据和多个类型预设模板的匹配，以及脚本并参照预设模板建立数据表的方法、根据SQL语句解析多个不同的数据库或数据表来构建成目标数据集的方法、通过向目标数据节点发送数据表构建指令，指示目标数据节点创建目标表的方法以及通过根据所述用户需求生成数据分析算法，利用数据分析算法分析多个维度表的数据结构来构建目标表的方法等传统技术，然而，前述传统技术在多源系统数据集成过程中，仍然存在着建表复杂度较高的技术问题。

发明内容

针对上述传统方法中存在的问题，本发明提出了一种多源异构离线数据处理方法、一种多源异构离线数据处理系统、一种计算机设备和一种计算机可读存储介质，能够大幅降低基于数据表的离线数据处理复杂度。

为了实现上述目的，本发明实施例采用以下技术方案：

一方面，提供一种多源异构离线数据处理方法，包括步骤：

在异构数据源的数据源管理页面中添加各离线数据源、配置数据源连接信息并完成连通性测试；离线数据源包括MySQL数据源、DB2数据源、Hive数据源、Phoenix数据源、ClickHouse数据源和Doris数据源；

在异构数据源的数据集管理页面选择数据源中的数据表，同步数据表的元数据信息并将元数据信息保存至数据集表；元数据信息包括数据表名、字段名称、字段类型、主键字段、分区字段和索引字段；

基于DAG界面操作创建与编辑DAG集成画布并保存至画布表；

利用离线集成画布插件模型在DAG集成画布中基于DAG拖拉拽动态选择集成插件；集成插件包括输入插件、转换插件和输出插件；

在DAG集成画布中选择输入插件并配置输入表，选择转换插件并配置转换规则，选择输出插件并配置输出表；

在DAG集成画布中，利用数据表关系配置模型构建集成插件中数据表之间的转换关系；

在DAG集成画布中，利用数据表实体建模模型对所选择的输入表与输出表进行数据表实体建模，利用转换规则实体建模模型对转换规则进行数据建模；

在DAG集成画布中，利用输入表实体构建模型对输入插件中输入表配置进行实例化转换，得到输入表实体并保存至数据表实体表；

在DAG集成画布中，利用转换规则实体构建模型对转换插件中转换规则配置进行实例化转换，得到转换规则实体并保存至转换规则实体表；

在DAG集成画布中，利用输出表实体构建模型、数据表关系配置模型与数据表实体建模模型，构建输出表实体并保存至数据表实体表；

利用多源建表模板筛选过程模型，获取输出表实体的数据源类型后通过类型判定与模板筛选，得到目标表的建表语句模板；

在DAG集成画布中，利用多源目标表建表实例构建模型将建表语句模板与输出表实体的参数配置进行匹配，得到目标表的建表语句实例；

利用多源目标表自主创建模型，根据输出表实体的数据源类型自动连接数据源并执行目标表创建过程，得到创建的目标表；其中，通过采用Spark离线计算引擎实现所述目标表的创建，以及实现基于异构类型数据表的离线数据处理全部过程。

另一方面，还提供一种多源异构离线数据处理系统，包括：

源配置模块，用于在异构数据源的数据源管理页面中添加各离线数据源、配置数据源连接信息并完成连通性测试；离线数据源包括MySQL数据源、DB2数据源、Hive数据源、Phoenix数据源、ClickHouse数据源和Doris数据源；

元同步模块，用于在异构数据源的数据集管理页面选择数据源中的数据表，同步数据表的元数据信息并将元数据信息保存至数据集表；元数据信息包括数据表名、字段名称、字段类型、主键字段、分区字段和索引字段；

画布构建模块，用于基于DAG界面操作创建与编辑DAG集成画布并保存至画布表；

画布插件模块，用于利用离线集成画布插件模型在DAG集成画布中基于DAG拖拉拽动态选择集成插件；集成插件包括输入插件、转换插件和输出插件；

数据表配置模块，用于在DAG集成画布中选择输入插件并配置输入表，选择转换插件并配置转换规则，选择输出插件并配置输出表；

表关系配置模块，用于在DAG集成画布中，利用数据表关系配置模型构建集成插件中数据表之间的转换关系；

实体建模模块，用于在DAG集成画布中，利用数据表实体建模模型对所选择的输入表与输出表进行数据表实体建模，利用转换规则实体建模模型对转换规则进行数据建模；

输入实体模块，用于在DAG集成画布中，利用输入表实体构建模型对输入插件中输入表配置进行实例化转换，得到输入表实体并保存至数据表实体表；

转换实体模块，用于在DAG集成画布中，利用转换规则实体构建模型对转换插件中转换规则配置进行实例化转换，得到转换规则实体并保存至转换规则实体表；

输出实体模块，用于在DAG集成画布中，利用输出表实体构建模型、数据表关系配置模型与数据表实体建模模型，构建输出表实体并保存至数据表实体表；

模板筛选模块，用于利用多源建表模板筛选过程模型，获取输出表实体的数据源类型后通过类型判定与模板筛选，得到目标表的建表语句模板；

实例匹配模块，用于在DAG集成画布中，利用多源目标表建表实例构建模型将建表语句模板与输出表实体的参数配置进行匹配，得到目标表的建表语句实例；

表创建模块，用于利用多源目标表自主创建模型，根据输出表实体的数据源类型自动连接数据源并执行目标表创建过程，得到创建的目标表；其中，通过采用Spark离线计算引擎实现所述目标表的创建，以及实现基于异构类型数据表的离线数据处理全部过程。

又一方面，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述的多源异构离线数据处理方法的步骤。

再一方面，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的多源异构离线数据处理方法的步骤。

上述技术方案中的一个技术方案具有如下优点和有益效果：

上述多源异构离线数据处理方法、系统、设备和介质，通过基于可视界面配置减少人工操作，降低系统开发难度；采用DAG插件数据表配置实现零代码开发，表关系动态编排增加灵活性；设计数据表实体建模模型，对集成插件中数据表进行特征建模；设计多源类型建表语句模板，减少人工编码，统一数据源连接，增加系统扩展性；设计多源建表实例构建过程，自动构建目标表建表语句；设计多源类型目标表创建过程，自主完成高效的目标表创建操作；最终，通过离线数据表处理实现数据集成在多个环节上一体化，大幅降低了多源异构类型数据表的离线数据处理复杂度，解决了多源异构数据的统一管理与控制难题，解决了因处理流程繁多而数据开发杂乱的难题，同时也降低人工成本且简化系统开发流程。

附图说明

为了更清楚地说明本申请实施例或传统技术中的技术方案，下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中多源异构离线数据处理方法的流程示意图；

图2为一个实施例中离线集成插件类型的示意图；

图3为一个实施例中离线数据表关系配置的示意图；

图4为一个实施例中建表语句实例构建的流程示意图；

图5为一个实施例中目标表自主创建的流程示意图；

图6为一个实施例中多源异构离线数据处理系统的模块组成框架示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

需要说明的是，在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。

本领域技术人员可以理解，本文所描述的实施例可以与其它实施例相结合。在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在离线数据集成过程中，目标表构建与处理至关重要。在实现本发明的过程中，发明人发现传统技术中虽然很多学者进行了一些技术方案探讨，可以实现一定程度的简单构建流程，能支持多个不同数据库，采用预设模板简化数据开发，自动创建目标表等。但是，在处理流程繁多且开发杂乱的数据表构建任务上，仍然缺少统一的标准模型，在一站式离线数据集成开发中存在明显的局限性。例如通过预处理数据和多个类型预设模板的匹配，以及脚本并参照预设模板建立数据表的方法，其采用人工脚本编码方式，增加了人工开发成本；根据SQL(Structured Query Language，是一种用于管理关系型数据库的编程语言。它用于执行各种数据库操作，如查询数据、插入、更新和删除数据，以及创建和修改数据库表结构等)语句解析多个不同的数据库或数据表来构建成目标数据集的方法，需要对SQL语句进行解析，在处理流程繁多场景中解析过程复杂；通过向目标数据节点发送数据表构建指令，指示目标数据节点创建目标表的方法，指令构建定制化程度高，在多源系统中处理其扩展性差；通过根据用户需求生成数据分析算法，利用数据分析算法分析多个维度表的数据结构来构建目标表的方法，数据表处理存在较多的代码重复开发。

针对上述传统技术缺陷，本发明的目的是打造一套简单高效的基于异构类型数据表的离线数据处理标准方案及系统，兼容多种异构数据来源，解决数据孤岛，沉淀数据资产；基于可视界面配置减少人工操作，降低系统开发难度；采用DAG(有向无环图)插件数据表配置实现零代码开发，表关系动态编排增加灵活性；设计数据表实体建模模型，对集成插件中数据表进行特征建模；设计多源类型建表语句模板，减少人工编码，统一数据源连接，增加系统扩展性；设计多源建表实例构建过程，自动构建目标表建表语句；设计多源类型目标表创建过程，自主完成目标表创建操作；最终，通过离线数据表处理实现数据集成在多个环节上一体化，大幅降低了多源异构类型的数据表的离线数据处理复杂度，解决了多源异构数据的统一管理与控制难题，解决了因处理流程繁多而数据开发杂乱的难题，同时也降低人工成本且简化系统开发流程。

下面将结合本发明实施例图中的附图，对本发明实施方式进行详细说明。

请参阅图1，在一个实施例中，提供了一种多源异构离线数据处理方法，包括如下处理步骤S10至S23：

S10，在异构数据源的数据源管理页面中添加各离线数据源、配置数据源连接信息并完成连通性测试；离线数据源包括MySQL数据源、DB2数据源、Hive数据源、Phoenix数据源、ClickHouse数据源和Doris数据源。

可以理解，在多源异构离线数据管理平台上，针对各异构数据源的数据集管理页面中，添加当前应用场景中存在的多种离线数据源，配置这些数据源的连接信息并通过连通性测试后，将这些连接信息保存至系统配置的数据源表中，这些离线数据源可以但不限于包括本领域既有的：MySQL数据源、DB2数据源、Hive数据源、Phoenix数据源、ClickHouse数据源和Doris数据源，以确定当前处理任务涉及的各异构的离线数据源。

S11，在异构数据源的数据集管理页面选择数据源中的数据表，同步数据表的元数据信息并将元数据信息保存至数据集表；元数据信息包括数据表名、字段名称、字段类型、主键字段、分区字段和索引字段。

可以理解，接下来在数据集管理页面中选择前述离线数据源中包含的数据表，同步数据表的元数据信息，并将元数据信息保存至数据集管理页面对应的数据集表中，这些元数据信息可以包括数据表名、字段名称、字段类型、主键字段、分区字段和索引字段，从而将当前应用场景中存在的多种离线数据源的数据表信息同步到数据集表中，以便后续处理步骤调用。

S12，基于DAG界面操作创建与编辑DAG集成画布并保存至画布表。

可以理解，在此步骤中，则是构建离线数据集成的DAG集成画布，可以直接通过DAG界面操作创建与编辑该集成画布并将其保存至平台的画布表中。

S13，利用离线集成画布插件模型在DAG集成画布中基于DAG拖拉拽动态选择集成插件；集成插件包括输入插件、转换插件和输出插件。

可以理解，接下来配置离线集成画布插件，具体的，利用离线集成画布插件模型，在前述DAG集成画布中基于DAG拖拉拽动态选择集成插件，这些集成插件可以包括输入插件I、转换插件F和输出插件O。其中，利用的离线集成画布插件模型，可以如下式y₁所示：

其中，DagPlugin()表示集成画布插件模型，n₁为输入插件数，n₂为转换插件数，n₃为输出插件数且n₃∈[1,n₂]。

S14，在DAG集成画布中选择输入插件并配置输入表，选择转换插件并配置转换规则，选择输出插件并配置输出表。

可以理解，如图2所示，接着进行数据表配置，在前述DAG集成画布中，选择输入插件及配置输入表，这些输入插件可以包括MySQL输入插件、DB2输入插件、Hive输入插件、Phoenix输入插件、ClickHouse输入插件和Doris输入插件，并配置相应插件类型的数据表作为输入表TI。

在前述DAG集成画布中，选择转换插件及配置转换规则，这些转换插件可以包括SQL多表关联插件、Filter数据过滤插件、Derive字段衍生插件、Concat字段连接插件、Substr字符截取插件和Null空值处理插件，并配置相应插件类型的转换规则规则TF。

在前述DAG集成画布中，选择输出插件及配置输出表，这些输出插件可以包括MySQL输出插件、DB2输出插件、Hive输出插件、Phoenix输出插件、ClickHouse输出插件和Doris输出插件，并配置相应插件类型的数据表作为输出表TO。如此，数据输入的时候，选择前述异构类型的数据源中相应数据表作为输入表，数据输出的时候选择异构类型的数据源中相应数据表作为输出表，通过配置异构类型的数据表之间的转换规则，从而确保整个流程下来可以准确实现基于异构类型数据表的离线数据处理全部过程，也即整个方案是通过利用数据表之间的数据转换处理，最终完成基于异构类型数据表的离线数据处理全部过程。

S15，在DAG集成画布中，利用数据表关系配置模型构建集成插件中数据表之间的转换关系。

可以理解，如图3所示，接着进行表关系配置，即在前述DAG集成画布中，利用数据表关系配置模型构建集成插件中表之间的转换关系，以用于构建目标表。具体的，通过对3种集成插件(I、F、O)关系的动态编排，来构建集成插件中表之间的转换关系，所述转换关系为：多个输入表TI与多个转换规则TF生成多个输出表TO。其中，利用的数据表关系配置模型，可以如下式y₂所示：

其中，TRM()表示数据表关系模型，n₁为输入表的数量，n₂为转换规则的数量，n₃为输出表的数量，r为表关系数且r∈[n₂,n₁×n₂]，TI为输入表，TF为转换规则，TO为输出表，箭头表示关系转换方向。

S16，在DAG集成画布中，利用数据表实体建模模型对所选择的输入表与输出表进行数据表实体建模，利用转换规则实体建模模型对转换规则进行数据建模。

可以理解，接着可以进行数据表实体建模，在前述DAG集成画布中，利用数据表实体建模模型，对所选择的输入表TI与输出表TO进行数据建模。同时，实体建模特征可以包括数据源DS、表名称TN、字段名称CN、字段类型CT、主键字段PK、分区字段PF和索引字段IF。其中，利用的数据表实体建模模型，可以如下式y₃所示：

其中，TEM()表示数据表建模模型，m₁为数据字段的数量，m₂为主键字段的数量，m₃为分区字段的数量，m₄为索引字段的数量，且m₂,m₃,m₄均小于m₁。

在前述DAG集成画布中，利用转换规则实体建模模型，对转换规则TF进行数据建模。同时，实体建模特征可以包括数据源DS、来源表名TN、多表关系TR、字段名称CN和字段类型CT。其中，利用的转换规则实体建模模型，可以如下式y₄所示：

其中，TFM()表示转换规则建模模型，k₁为来源表的数量，k₂为表关系的数量且k₂∈[k₁,k₁×k₁]，k₃为字段的数量。

S17，在DAG集成画布中，利用输入表实体构建模型对输入插件中输入表配置进行实例化转换，得到输入表实体并保存至数据表实体表。

可以理解，完成数据表实体建模后，即可以对输入表实体进行实例化，如在前述DAG集成画布中，利用输入表实体构建模型，对输入插件中输入表配置进行实例化转换，得到输入表实体并保存至数据表实体表中。具体的，第一步：获取输入插件中输入表TI的输入表配置，该输入表配置可以包括数据源DS、表名称TN、字段名称CN、字段类型CT、主键字段PK、分区字段PF和索引字段IF；第二步：基于数据表实体建模模型，对输入表配置等建模特征进行配置实例化转换，最终构建输入表实体TIE。其中，利用的输入表实体构建模型，可以如下式y₅所示：

其中，TIEM()表示输入表实体模型，n₁为输入表的数量，TI为输入表，IC为输入表配置，TIE为输入表实体，TEM为数据表建模模型，箭头表示实例化转化方向。

S18，在DAG集成画布中，利用转换规则实体构建模型对转换插件中转换规则配置进行实例化转换，得到转换规则实体并保存至转换规则实体表。

可以理解，进行转换规则实体实例化，在前述DAG集成画布中，利用转换规则实体构建模型，对转换插件中转换规则配置进行实例化转换，得到转换规则实体并保存至转换规则实体表中。具体的，第一步：获取输入插件中输入表TI的输入表配置，该输入表配置可以包括数据源DS和表名称TN；第二步：获取转换插件中转换规则TF的转换规则配置，该转换规则配置可以包括多表关系TR、字段名称CN和字段类型CT；第三步：基于转换规则实体建模模型，对前述输入表配置和转换规则配置等建模特征进行配置实例化转换，最终构建转换规则实体TFE。其中，利用的转换规则实体构建模型，可以如下式y₆所示：

其中，TFEM()表示转换规则实体模型，n₁为输入表的数量，n₂为转换规则的数量，TI为输入表，TF为转换规则，IC为输入表配置，FC为转换规则配置，TFM为转换规则建模模型，TFE为转换规则实体，箭头表示实例化转化方向。

S19，在DAG集成画布中，利用输出表实体构建模型、数据表关系配置模型与数据表实体建模模型，构建输出表实体并保存至数据表实体表。

可以理解，在前述DAG集成画布中，利用输出表实体构建模型，以及基于数据表关系配置模型与数据表实体建模模型的转换，构建输出表实体并保存至数据表实体表中。具体的，第一步：获取输入插件中的输入表实体TIE，转换插件中的转换规则实体TFE；第二步：基于数据表关系配置模型，获取集成插件中数据表之间的转换关系；第三步：基于集成插件中数据表之间的转换关系，对输入表实体TIE与转换规则实体TFE进行关系转化，得到输出表配置；第四步：基于数据表实体建模模型，对输出表配置等建模特征进行配置实例化转换，最终构建输出表实体TOE。其中，利用的输出表实体构建模型，可以如下式y₇所示：

其中，TOEM()表示输出表实体模型，n₁为输入表的数量，n₂为转换规则的数量，n₃为输出表的数量且n₃∈[1,n₂]，TIE为输入表实体，TFE为转换规则实体，TRM为数据表关系模型，TEM为数据表建模模型，TOE为输出表实体，箭头表示实体转换方向。

S20，利用多源建表模板筛选过程模型，获取输出表实体的数据源类型后通过类型判定与模板筛选，得到目标表的建表语句模板。

可以理解，数据类型可以包括MySQL数据源、DB2数据源、Hive数据源、Phoenix数据源、ClickHouse数据源和Doris数据源，不同数据类型的数据源对应的建表语句模板可以通过预先定义的方式获得。

在一些实施方式中，进一步的，上述多源异构离线数据处理方法还可以包括如下步骤：

根据各离线数据源的数据源类型，加载预先定义的各建表语句模板；建表语句模板包括MySQL建表语句模板、DB2建表语句模板、Hive建表语句模板、Phoenix建表语句模板、ClickHouse建表语句模板和Doris建表语句模板。

具体的，设计多种数据源类型的建表语句模板，这些数据源类型可以包括：MySQL数据源、DB2数据源、Hive数据源、Phoenix数据源、ClickHouse数据源和Doris数据源。其中，定义MySQL建表语句模板MT，可以如下所示：

CREATE TABLE${tn}(${cn1}${ct1},${cn2}${ct2},${cn3}${ct3},...,PRIMARYKEY($pk))ENGINE＝InnoDB DEFAULT CHARSET＝utf8mb4 COMMENT＝'${cm}'。

定义DB2建表语句模板BT，可以如下所示：

CREATE TABLE${tn}(${cn1}${ct1},${cn2}${ct2},${cn3}${ct3},...)IN${tn}ORGANIZE BY ROW。

定义Hive建表语句模板HT，可以如下所示：

CREATE TABLE${tn}(${cn1}${ct1},${cn2}${ct2},${cn3}${ct3},...)PARTITIONED BY(${pf}string)ROW FORMAT SERDE${rf}STORED AS INPUTFORMAT${if}。

定义Phoenix建表语句模板PT，可以如下所示：

CREATE TABLE${tn}(${cn1}${ct1},${cn2}${ct2},${cn3}${ct3},...,CONSTRAINT my_pk PRIMARY KEY($pk))。

定义ClickHouse建表语句模板CT，可以如下所示：

CREATE TABLE${tn}(${cn1}${ct1},${cn2}${ct2},${cn3}${ct3},...)ENGINE＝MergeTree()PARTITION BY toYYYYMM(${pf})ORDER BY${oc}。

定义Doris建表语句模板DT，可以如下所示：

CREATE TABLE${tn}(${cn1}${ct1},${cn2}${ct2},${cn3}${ct3},...)DUPLICATE KEY($cn1)DISTRIBUTED BY HASH($cn2)BUCKETS1。

其中，${}表示模板变量，tn为表名，cn表示字段名，ct字段类型，pk为主键字段，pf为分区字段，oc为排序字段，rf为换行符，if为存储格式，cm为建表备注。CREATE TABLE表示建表，PRIMARY KEY表示主键，ENGINE＝InnoDB DEFAULT CHARSET表示将数据库的引擎设置为数据库默认的存储引擎InnoDB，其余语句含义可以参照本领域既有的SQL建表语句同理理解。

进一步的，上述多源异构离线数据处理方法还可以包括如下步骤：

利用多源模板筛选器模型，对数据源类型进行判定与模板筛选，得到对应数据源类型的建表语句模板。

可以理解，利用多源模板筛选器模型，预先设计了基于数据源类型的模板筛选规则，即对数据源类型进行判定与模板筛选，得到对应数据源类型的建表语句模板。其中，利用的多源模板筛选器模型，可以如下式y₈所示：

其中，Selector()为模板筛选规则，变量x为数据源类型，MT,BT,HI,PT,CT,DT为多源建表语句模板。

进而，如图4所示，利用多源建表模板筛选过程模型，获取输出表实体的数据源类型，通过类型判定与模板筛选，得到目标表的建表语句模板。具体的，在输出表实体TOE中获取数据源DS配置，并解析出数据源类型DT，根据多源模板筛选器模型Selector的规则判定，筛选出输出表对应数据源类型的建表语句模板。其中，利用的多源建表模板筛选过程模型，可以如下式y₉所示：

其中，TSPM{}为模板筛选模型，n₃为输出表的数量，TOE为输出表实体，DS为数据源配置，DT为数据源类型，Selector为模板筛选器，Template为建表语句模板，箭头表示模板筛选过程。

S21，在DAG集成画布中，利用多源目标表建表实例构建模型将建表语句模板与输出表实体的参数配置进行匹配，得到目标表的建表语句实例。

可以理解，完成上述处理步骤后，即可进行建表实例构建，在前述DAG集成画布中，利用多源目标表建表实例构建模型，将筛选出的建表语句模板与输出表实体参数配置进行匹配，得到目标表的建表语句实例。

具体的，第一步：获取输出表实体TOE的配置特征(即输出表实体参数配置)，该配置特征可以包括数据源DS、表名称TN、字段名称CN、字段类型CT、主键字段PK、分区字段PF和索引字段IF；第二步：基于多源建表模板筛选过程模型，采用模板筛选器规则判定，获取目标表的建表语句模板Template；第三步：基于筛选出的建表语句模板，与前述配置特征进行映射与匹配，最终生成目标表的建表语句实例TOCDL。其中，利用的多源目标表建表实例构建模型，可以如下式y₁₀所示：

其中，TEPM{}为建表实例构建模型，n₃为输出表的数量，TOE为输出表实体，TSPM为模板筛选模型，Template为建表语句模板，TOCDL为建表语句实例，箭头表示建表实例构建方向。

S22，利用多源目标表自主创建模型，根据输出表实体的数据源类型自动连接数据源并执行目标表创建过程，得到创建的目标表；其中，通过采用Spark离线计算引擎实现目标表的创建，以及实现基于异构类型数据表的离线数据处理全部过程。

可以理解，设计的多源数据源连接器模型，可根据不同类型的数据源配置构建多种异构类型的Jdbc连接实例，Jdbc连接是用于执行SQL语句的Java API，可以为多种关系数据库提供统一访问，所需的数据源配置特征可以包括数据源类型、服务器IP、端口号、数据库名、实例名称、用户名称和用户密码。其中，设计的多源数据源连接器模型，如下式y₁₁所示：

其中，MultiJdbc{}为多源数据源连接器，q₁为数据源的数据量，DS为数据源类型，IP为服务器IP，HP为端口号，DN为数据库名称，IN为实例名称，UN为用户名称，PP为用户密码。

具体的，第一步：基于多源目标表建表实例构建模型，根据输出表配置得到建表语句实例TOCDL；第二步：设置多种类型数据源连接器MultiJdbc，其连接器类型可以包括MySQL、DB2、Hive、Phoenix、ClickHouse和Doris；第三步：根据目标表的数据源配置，采用MultiJdbc多源连接器进行数据源自动连接，并运行建表语句实例TOCDL，执行目标表创建过程；第四步：获取最终的创建结果及完成创建操作。其中，利用的多源目标表自主创建模型，可以如下式y₁₂所示：

其中，n₃为建表实例的数量，TOE为输出表实体，TEPM为建表实例构建模型，TOCDL为建表语句实例，MultiJdbc为多源数据源连接器，Result为建表结果，箭头表示目标表创建过程。

可以理解，通过采用本领域既有的Spark离线计算引擎实现目标数据表创建，以及实现基于异构类型数据表的离线数据处理全部过程。具体的，采用Spark离线计算引擎来构建数据处理各个环节中的数据表与目标表，以及实现输入表、转换规则和输出表之间的关系转化；通过利用数据表之间的数据转换处理，最终完成的离线数据处理全部过程。

上述多源异构离线数据处理方法，通过基于可视界面配置减少人工操作，降低系统开发难度；采用DAG插件数据表配置实现零代码开发，表关系动态编排增加灵活性；设计数据表实体建模模型，对集成插件中数据表进行特征建模；设计多源类型建表语句模板，减少人工编码，统一数据源连接，增加系统扩展性；设计多源建表实例构建过程，自动构建目标表建表语句；设计多源类型目标表创建过程，自主完成高效的目标表创建操作；最终，通过离线数据表处理实现数据集成在多个环节上一体化，大幅降低了多源异构类型的数据表的离线数据处理复杂度，解决了多源异构数据的统一管理与控制难题，解决了因处理流程繁多而数据开发杂乱的难题，同时也降低人工成本且简化系统开发流程。

在一个实施例中，进一步的，如图5所示，上述多源异构离线数据处理方法还可以包括如下处理步骤：

执行目标表创建过程中，若目标表创建成功，则返回创建成功的结果指示；

若目标表创建失败，则返回创建失败的结果指示。

可以理解，在执行目标表创建过程中，平台还会同步监视建表结果并返回相应的创建结果数据到前台，从而高效直观地向用于指示自动建表的结果，便于建表过程的监视和及时处置，提高自动建表的可靠性。

应该理解的是，虽然上述流程图1和图5中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且上述流程图1和图5的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供一种多源异构离线数据处理系统100，包括源配置模块11、元同步模块12、画布构建模块13、画布插件模块14、数据表配置模块15、表关系配置模块16、实体建模模块17、输入实体模块18、转换实体模块19、输出实体模块20、模板筛选模块21、实例匹配模块22和表创建模块23。其中：

源配置模块11用于在异构数据源的数据源管理页面中添加各离线数据源、配置数据源连接信息并完成连通性测试；离线数据源包括MySQL数据源、DB2数据源、Hive数据源、Phoenix数据源、ClickHouse数据源和Doris数据源。元同步模块12用于在异构数据源的数据集管理页面选择数据源中的数据表，同步数据表的元数据信息并将元数据信息保存至数据集表；元数据信息包括数据表名、字段名称、字段类型、主键字段、分区字段和索引字段。

画布构建模块13用于基于DAG界面操作创建与编辑DAG集成画布并保存至画布表。画布插件模块14用于利用离线集成画布插件模型在DAG集成画布中基于DAG拖拉拽动态选择集成插件；集成插件包括输入插件、转换插件和输出插件。数据表配置模块15用于在DAG集成画布中选择输入插件并配置输入表，选择转换插件并配置转换规则，选择输出插件并配置输出表。表关系配置模块16用于在DAG集成画布中，利用数据表关系配置模型构建集成插件中数据表之间的转换关系。实体建模模块17用于在DAG集成画布中，利用数据表实体建模模型对所选择的输入表与输出表进行数据表实体建模，利用转换规则实体建模模型对转换规则进行数据建模。输入实体模块18用于在DAG集成画布中，利用输入表实体构建模型对输入插件中输入表配置进行实例化转换，得到输入表实体并保存至数据表实体表。转换实体模块19用于在DAG集成画布中，利用转换规则实体构建模型对转换插件中转换规则配置进行实例化转换，得到转换规则实体并保存至转换规则实体表。输出实体模块20用于在DAG集成画布中，利用输出表实体构建模型、数据表关系配置模型与数据表实体建模模型，构建输出表实体并保存至数据表实体表。模板筛选模块21用于利用多源建表模板筛选过程模型，获取输出表实体的数据源类型后通过类型判定与模板筛选，得到目标表的建表语句模板。实例匹配模块22用于在DAG集成画布中，利用多源目标表建表实例构建模型将建表语句模板与输出表实体的参数配置进行匹配，得到目标表的建表语句实例。表创建模块23用于利用多源目标表自主创建模型，根据输出表实体的数据源类型自动连接数据源并执行目标表创建过程，得到创建的目标表；其中，通过采用Spark离线计算引擎实现目标表的创建，以及实现基于异构类型数据表的离线数据处理全部过程。

上述多源异构离线数据处理系统100，通过基于可视界面配置减少人工操作，降低系统开发难度；采用DAG插件数据表配置实现零代码开发，表关系动态编排增加灵活性；设计数据表实体建模模型，对集成插件中数据表进行特征建模；设计多源类型建表语句模板，减少人工编码，统一数据源连接，增加系统扩展性；设计多源建表实例构建过程，自动构建目标表建表语句；设计多源类型目标表创建过程，自主完成高效的目标表创建操作；最终，通过离线数据表处理实现数据集成在多个环节上一体化，大幅降低了多源异构类型数据表的离线数据处理复杂度，解决了多源异构数据的统一管理与控制难题，解决了因处理流程繁多而数据开发杂乱的难题，同时也降低人工成本且简化系统开发流程。

在一个实施例中，上述多源异构离线数据处理系统100还可以包括模板加载模块，用于根据各离线数据源的数据源类型，加载预先定义的各建表语句模板；建表语句模板包括MySQL建表语句模板、DB2建表语句模板、Hive建表语句模板、Phoenix建表语句模板、ClickHouse建表语句模板和Doris建表语句模板。

在一个实施例中，上述多源异构离线数据处理系统100还可以包括类型筛选模块，用于利用多源模板筛选器模型，对数据源类型进行判定与模板筛选，得到对应数据源类型的建表语句模板。

在一个实施例中，表创建模块在执行目标表创建过程中，还用于在目标表创建成功时，返回创建成功的结果指示，在目标表创建失败时，返回创建失败的结果指示。

关于多源异构离线数据处理系统100的具体限定，可以参见上文中多源异构离线数据处理方法的相应限定，在此不再赘述。上述多源异构离线数据处理系统100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具备数据处理功能的设备中，也可以软件形式存储于前述设备的存储器中，以便于处理器调用执行以上各个模块对应的操作，前述设备可以是但不限于本领域已有的各型数据计算与处理设备。

在一个实施例中，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现如下处理步骤：在异构数据源的数据源管理页面中添加各离线数据源、配置数据源连接信息并完成连通性测试；离线数据源包括MySQL数据源、DB2数据源、Hive数据源、Phoenix数据源、ClickHouse数据源和Doris数据源；在异构数据源的数据集管理页面选择数据源中的数据表，同步数据表的元数据信息并将元数据信息保存至数据集表；元数据信息包括数据表名、字段名称、字段类型、主键字段、分区字段和索引字段；基于DAG界面操作创建与编辑DAG集成画布并保存至画布表；利用离线集成画布插件模型在DAG集成画布中基于DAG拖拉拽动态选择集成插件；集成插件包括输入插件、转换插件和输出插件；在DAG集成画布中选择输入插件并配置输入表，选择转换插件并配置转换规则，选择输出插件并配置输出表；在DAG集成画布中，利用数据表关系配置模型构建集成插件中数据表之间的转换关系；在DAG集成画布中，利用数据表实体建模模型对所选择的输入表与输出表进行数据表实体建模，利用转换规则实体建模模型对转换规则进行数据建模；在DAG集成画布中，利用输入表实体构建模型对输入插件中输入表配置进行实例化转换，得到输入表实体并保存至数据表实体表；在DAG集成画布中，利用转换规则实体构建模型对转换插件中转换规则配置进行实例化转换，得到转换规则实体并保存至转换规则实体表；在DAG集成画布中，利用输出表实体构建模型、数据表关系配置模型与数据表实体建模模型，构建输出表实体并保存至数据表实体表；利用多源建表模板筛选过程模型，获取输出表实体的数据源类型后通过类型判定与模板筛选，得到目标表的建表语句模板；在DAG集成画布中，利用多源目标表建表实例构建模型将建表语句模板与输出表实体的参数配置进行匹配，得到目标表的建表语句实例；利用多源目标表自主创建模型，根据输出表实体的数据源类型自动连接数据源并执行目标表创建过程，得到创建的目标表；其中，通过采用Spark离线计算引擎实现目标表的创建，以及实现基于异构类型数据表的离线数据处理全部过程。

可以理解，上述计算机设备除上述述及的存储器和处理器外，还包括其他本说明书未列出的软硬件组成部分，具体可以根据不同应用场景下的具体计算机设备的型号确定，本说明书不再一一列出详述。

在一个实施例中，处理器执行计算机程序时还可以实现上述多源异构离线数据处理方法各实施例中增加的步骤或者子步骤。

在一个实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如下处理步骤：在异构数据源的数据源管理页面中添加各离线数据源、配置数据源连接信息并完成连通性测试；离线数据源包括MySQL数据源、DB2数据源、Hive数据源、Phoenix数据源、ClickHouse数据源和Doris数据源；在异构数据源的数据集管理页面选择数据源中的数据表，同步数据表的元数据信息并将元数据信息保存至数据集表；元数据信息包括数据表名、字段名称、字段类型、主键字段、分区字段和索引字段；基于DAG界面操作创建与编辑DAG集成画布并保存至画布表；利用离线集成画布插件模型在DAG集成画布中基于DAG拖拉拽动态选择集成插件；集成插件包括输入插件、转换插件和输出插件；在DAG集成画布中选择输入插件并配置输入表，选择转换插件并配置转换规则，选择输出插件并配置输出表；在DAG集成画布中，利用数据表关系配置模型构建集成插件中数据表之间的转换关系；在DAG集成画布中，利用数据表实体建模模型对所选择的输入表与输出表进行数据表实体建模，利用转换规则实体建模模型对转换规则进行数据建模；在DAG集成画布中，利用输入表实体构建模型对输入插件中输入表配置进行实例化转换，得到输入表实体并保存至数据表实体表；在DAG集成画布中，利用转换规则实体构建模型对转换插件中转换规则配置进行实例化转换，得到转换规则实体并保存至转换规则实体表；在DAG集成画布中，利用输出表实体构建模型、数据表关系配置模型与数据表实体建模模型，构建输出表实体并保存至数据表实体表；利用多源建表模板筛选过程模型，获取输出表实体的数据源类型后通过类型判定与模板筛选，得到目标表的建表语句模板；在DAG集成画布中，利用多源目标表建表实例构建模型将建表语句模板与输出表实体的参数配置进行匹配，得到目标表的建表语句实例；利用多源目标表自主创建模型，根据输出表实体的数据源类型自动连接数据源并执行目标表创建过程，得到创建的目标表；其中，通过采用Spark离线计算引擎实现目标表的创建，以及实现基于异构类型数据表的离线数据处理全部过程。

在一个实施例中，计算机程序被处理器执行时，还可以实现上述多源异构离线数据处理方法各实施例中增加的步骤或者子步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线式动态随机存储器(RambusDRAM，简称RDRAM)以及接口动态随机存储器(DRDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可做出若干变形和改进，都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多源异构离线数据处理方法，其特征在于，包括步骤：

在异构数据源的数据源管理页面中添加各离线数据源、配置数据源连接信息并完成连通性测试；所述离线数据源包括MySQL数据源、DB2数据源、Hive数据源、Phoenix数据源、ClickHouse数据源和Doris数据源；

在异构数据源的数据集管理页面选择数据源中的数据表，同步数据表的元数据信息并将元数据信息保存至数据集表；所述元数据信息包括数据表名、字段名称、字段类型、主键字段、分区字段和索引字段；

基于DAG界面操作创建与编辑DAG集成画布并保存至画布表；

利用离线集成画布插件模型在所述DAG集成画布中基于DAG拖拉拽动态选择集成插件；所述集成插件包括输入插件、转换插件和输出插件；

在所述DAG集成画布中选择输入插件并配置输入表，选择转换插件并配置转换规则，选择输出插件并配置输出表；

在所述DAG集成画布中，利用数据表关系配置模型构建所述集成插件中数据表之间的转换关系；

在所述DAG集成画布中，利用数据表实体建模模型对所选择的输入表与输出表进行数据表实体建模，利用转换规则实体建模模型对转换规则进行数据建模；

在所述DAG集成画布中，利用输入表实体构建模型对输入插件中输入表配置进行实例化转换，得到输入表实体并保存至数据表实体表；

在所述DAG集成画布中，利用转换规则实体构建模型对转换插件中转换规则配置进行实例化转换，得到转换规则实体并保存至转换规则实体表；

在所述DAG集成画布中，利用输出表实体构建模型、所述数据表关系配置模型与所述数据表实体建模模型，构建输出表实体并保存至所述数据表实体表；

利用多源建表模板筛选过程模型，获取所述输出表实体的数据源类型后通过类型判定与模板筛选，得到目标表的建表语句模板；

在所述DAG集成画布中，利用多源目标表建表实例构建模型将所述建表语句模板与所述输出表实体的参数配置进行匹配，得到所述目标表的建表语句实例；

利用多源目标表自主创建模型，根据输出表实体的数据源类型自动连接数据源并执行目标表创建过程，得到创建的所述目标表；其中，通过采用Spark离线计算引擎实现所述目标表的创建，以及实现基于异构类型数据表的离线数据处理全部过程。

2.根据权利要求1所述的多源异构离线数据处理方法，其特征在于，还包括步骤：

根据各所述离线数据源的数据源类型，加载预先定义的各建表语句模板；所述建表语句模板包括MySQL建表语句模板、DB2建表语句模板、Hive建表语句模板、Phoenix建表语句模板、ClickHouse建表语句模板和Doris建表语句模板。

3.根据权利要求2所述的多源异构离线数据处理方法，其特征在于，利用多源建表模板筛选过程模型，获取所述输出表实体的数据源类型后通过类型判定与模板筛选，得到目标表的建表语句模板的步骤之前，还包括步骤：

4.根据权利要求1所述的多源异构离线数据处理方法，其特征在于，还包括步骤：

执行目标表创建过程中，若所述目标表创建成功，则返回创建成功的结果指示；

若所述目标表创建失败，则返回创建失败的结果指示。

5.一种多源异构离线数据处理系统，其特征在于，包括：

源配置模块，用于在异构数据源的数据源管理页面中添加各离线数据源、配置数据源连接信息并完成连通性测试；所述离线数据源包括MySQL数据源、DB2数据源、Hive数据源、Phoenix数据源、ClickHouse数据源和Doris数据源；

元同步模块，用于在异构数据源的数据集管理页面选择数据源中的数据表，同步数据表的元数据信息并将元数据信息保存至数据集表；所述元数据信息包括数据表名、字段名称、字段类型、主键字段、分区字段和索引字段；

画布插件模块，用于利用离线集成画布插件模型在所述DAG集成画布中基于DAG拖拉拽动态选择集成插件；所述集成插件包括输入插件、转换插件和输出插件；

数据表配置模块，用于在所述DAG集成画布中选择输入插件并配置输入表，选择转换插件并配置转换规则，选择输出插件并配置输出表；

表关系配置模块，用于在所述DAG集成画布中，利用数据表关系配置模型构建所述集成插件中数据表之间的转换关系；

实体建模模块，用于在所述DAG集成画布中，利用数据表实体建模模型对所选择的输入表与输出表进行数据表实体建模，利用转换规则实体建模模型对转换规则进行数据建模；

输入实体模块，用于在所述DAG集成画布中，利用输入表实体构建模型对输入插件中输入表配置进行实例化转换，得到输入表实体并保存至数据表实体表；

转换实体模块，用于在所述DAG集成画布中，利用转换规则实体构建模型对转换插件中转换规则配置进行实例化转换，得到转换规则实体并保存至转换规则实体表；

输出实体模块，用于在所述DAG集成画布中，利用输出表实体构建模型、所述数据表关系配置模型与所述数据表实体建模模型，构建输出表实体并保存至所述数据表实体表；

模板筛选模块，用于利用多源建表模板筛选过程模型，获取所述输出表实体的数据源类型后通过类型判定与模板筛选，得到目标表的建表语句模板；

实例匹配模块，用于在所述DAG集成画布中，利用多源目标表建表实例构建模型将所述建表语句模板与所述输出表实体的参数配置进行匹配，得到所述目标表的建表语句实例；

表创建模块，用于利用多源目标表自主创建模型，根据输出表实体的数据源类型自动连接数据源并执行目标表创建过程，得到创建的所述目标表；其中，通过采用Spark离线计算引擎实现所述目标表的创建，以及实现基于异构类型数据表的离线数据处理全部过程。

6.根据权利要求5所述的多源异构离线数据处理系统，其特征在于，还包括：

模板加载模块，用于根据各所述离线数据源的数据源类型，加载预先定义的各建表语句模板；所述建表语句模板包括MySQL建表语句模板、DB2建表语句模板、Hive建表语句模板、Phoenix建表语句模板、ClickHouse建表语句模板和Doris建表语句模板。

7.根据权利要求6所述的多源异构离线数据处理系统，其特征在于，还包括类型筛选模块，用于利用多源模板筛选器模型，对数据源类型进行判定与模板筛选，得到对应数据源类型的建表语句模板。

8.根据权利要求5所述的多源异构离线数据处理系统，其特征在于，所述表创建模块在执行目标表创建过程中，还用于在所述目标表创建成功时，返回创建成功的结果指示，在所述目标表创建失败时，返回创建失败的结果指示。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的多源异构离线数据处理方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4任一项所述的多源异构离线数据处理方法的步骤。