CN110647518B

CN110647518B - 一种数据源融合计算方法、组件及装置

Info

Publication number: CN110647518B
Application number: CN201911188323.7A
Authority: CN
Inventors: 侯良伟; 陶亮; 王纯斌; 赵神州
Original assignee: Chengdu Sefon Software Co Ltd
Current assignee: Chengdu Sefon Software Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-28
Anticipated expiration: 2039-11-28
Also published as: CN110647518A

Abstract

本发明公开了一种数据源融合计算方法、组件及装置，在本技术方案中不需要预先创建外部表，只需依赖数据源连接信息就可以直接展开多数据源计算。首先，我们会解析用户的SQL语句；然后，根据解析结果只从源数据库中抽取用户业务中需要的数据；最后，将这些数据在DTC‑FUSION上展开融合计算，并将结果输出到用户指定的目标数据库。解决了在现有的技术中一般通过Spark进行数据融合计算，其支持的数据源种类受限，而且每个数据源的表数据是全量读取，然后在内存中计算，这样参与计算的数据量巨大，对内存和网络I/O的压力非常大的问题。

Description

一种数据源融合计算方法、组件及装置

技术领域

本发明涉及数据库领域，特别涉及一种数据源融合计算方法、组件及装置。

背景技术

在数据库的发展历史上，数据库先后经历了层次数据库、网状数据库和关系数据库等各个阶段的发展，数据库技术在各个方面的快速的发展。特别是关系型数据库已经成为目前数据库产品中最重要的一员，80年代以来，几乎所有的数据库厂商新出的数据库产品都支持关系型数据库，即使一些非关系数据库产品也几乎都有支持关系数据库的接口。这主要是传统的关系型数据库可以比较好的解决管理和存储关系型数据的问题。随着云计算的发展和大数据时代的到来，关系型数据库越来越无法满足需要，这主要是由于越来越多的半关系型和非关系型数据需要用数据库进行存储管理，与此同时，分布式技术等新技术的出现也对数据库的技术提出了新的要求，于是越来越多的非关系型数据库就开始出现，这类数据库与传统的关系型数据库在设计和数据结构有了很大的不同，它们更强调数据库数据的高并发读写和存储大数据，这类数据库一般被称为NoSQL（Not only SQL）数据库。而传统的关系型数据库在一些传统领域依然保持了强大的生命力。

在现有的技术中一般通过Spark进行数据融合计算，Spark采用预先创建外部映射表的方式，实现对部分数据源的融合解析，达到业务处理的目的。但是其支持的数据源种类受限，而且每个数据源的表数据是全量读取，然后在内存中计算，这样参与计算的数据量巨大，对内存和网络I/O的压力非常大。

发明内容

本发明的目的在于：提供了一种数据源融合计算方法、组件及装置，解决了在现有的技术中一般通过Spark进行数据融合计算，其支持的数据源种类受限，而且每个数据源的表数据是全量读取，然后在内存中计算，这样参与计算的数据量巨大，对内存和网络I/O的压力非常大的问题。

本发明采用的技术方案如下：

一种数据源融合计算方法，包括源数据库、目标数据库和解析器，还包括以下步骤：

S1、解析器接收用户发送的SQL语句；

S2、解析器对接收到的SQL语句进行解析得到作业；

S3、解析器将步骤S2得到的作业发布到DTC-SERVER服务；

S4、DTC-SERVER服务管理并调度作业，提交作业到DTC-FUSION执行；

S5、DTC-FUSION执行接收到的作业，并将计算结果输出到目标数据库。

针对现有方案存在的问题，在本技术方案中不需要预先创建外部表，只需依赖数据源连接信息就可以直接展开多数据源计算。首先，我们会解析用户的SQL语句；然后，根据解析结果只从源数据库中抽取用户业务中需要的数据；最后，将这些数据在DTC-FUSION上展开融合计算，并将结果输出到用户指定的目标数据库。

所述融合计算是指将不同的数据库中的数据表提取出来进行统一处理，得到的处理结果即计算结果，以传统的Spark引擎的数据融合计算为例：包括MySQL、Mongo和oracle三种源数据库，其中MySQL数据库中储存有姓名-年龄的数据表，Mongo数据库中储存有姓名-职业的数据表，Mongo数据库中储存有姓名-工作单位的数据表，当我需要职业-工作单位-年龄的数据表时，一般通过编写SQL语句提交到Spark引擎，Spark引擎将MySQL、Mongo和oracle三种源数据库中的数据提取出来，Spark引擎根据SQL语句将姓名-职业、姓名-工作单位和姓名-年龄的数据表进行链接，得到关联数据表，根据关联数据表得到职业-工作单位-年龄的数据表，这一过程就是数据融合计算，其中职业-工作单位-年龄的数据表就是计算结果。

进一步的，所述步骤S2中解析器对接收到的SQL语句进行解析前，解析器创建与源数据库的连接，读取源数据库中的元数据。

进一步的，所述步骤S2中的作业为JSON模版格式。SQL语句会与已经存储的元数据结合，解析得到一个定制好的JSON模版。

进一步的，所述作业的内容包括数据地址和操作命令。

进一步的，DTC-FUSION与源数据库和目标数据库连接，所述步骤S5中DTC-FUSION执行接收到的作业时，根据作业内容中的数据地址读取源数据库中的数据，根据作业内容中的操作命令对读取到的数据进行处理。操作命令的内容包括从某个数据地址读取某个数据或数据表，然后将多个读取出来的数据或数据表进行某种链接，如：将表一的第一列、第二列与表二的第三列与表三的第一列进行链接得到关联数据表。

进一步的，所述源数据库和目标数据库包括关系型数据库、非关系型数据库中的至少一种。

进一步的，所述源数据库和目标数据库采用MySQL、Hive、Mongo、Elasticsearch、SQLServer、oracle数据库中的至少一种。

一种数据源融合计算组件，包括根据IDE规范封装的解析器、DTC-SERVER、DTC-FUSION、元数据接口、SQL接口和数据库接口；

解析器：执行上述的步骤S1、S2、S3；

DTC-SERVER：执行上述的步骤S4；

DTC-FUSION：执行上述的步骤S5。

一种数据源融合计算装置，包括存储器和处理器，所述处理器用于加载上述的一种数据源融合计算组件。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明一种数据源融合计算方法、组件及装置，解决了在现有的技术中一般通过Spark进行数据融合计算，其支持的数据源种类受限，而且每个数据源的表数据是全量读取，然后在内存中计算，这样参与计算的数据量巨大，对内存和网络I/O的压力非常大的问题；

2.本发明一种数据源融合计算方法、组件及装置，用于在用户有多数据源情况下，各个数据源需要关联分析计算得到用户想要的业务结果，高效的进行多数据源融合计算，并输出到指定到数据源中；

3.本发明一种数据源融合计算方法、组件及装置，不需要预先创建外部表，只需依赖数据源连接信息就可以直接展开多数据源计算；

4.本发明一种数据源融合计算方法、组件及装置，组件模块化，模块化让组件开发人员更关注组件自身的业务，业务划分更佳清晰，可维护性更强，开发效率更高，能更好排查问题，某个组件出现问题，直接对组件进行处理。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本发明的数据传输方法示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合图1对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

DTC：Data Transfer center，数据中转中心或数据中转服务器。

数据源：数据库管理系统，例如MySQL、Hive、Mongo、Elasticsearch等。

元数据：数据源的数据库/集合、表、表字段等信息。

数据源连接信息：数据库管理系统的服务器地址，端口，数据库等。

SQL解析：用户使用SQL语句实现业务需求，提交至服务的业务SQL会与已经存储的元数据结合，解析得到一个定制好的JSON模版。

SQL-IDE：封装的SQL编写工具。

作业：SQL语句解析后的JSON模版，就是一个作业。

DTC-SERVER：一个接收、管理、调度用户作业的服务，DTC-SERVER将作业提交到DTC-FUSION执行。

DTC-FUSION：整合DTC-FUSION的一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。

实施例1

S1、解析器接收用户发送的SQL语句；

S2、解析器对接收到的SQL语句进行解析得到作业；

S3、解析器将步骤S2得到的作业发布到DTC-SERVER服务；

S4、DTC-SERVER服务管理并调度作业，提交作业到DTC-FUSION执行；

针对现有方案存在的问题，在我们的技术方案中不需要预先创建外部表，只需依赖数据源连接信息就可以直接展开多数据源计算。首先，我们会通过SQL的解析器解析用户的SQL语句；然后，根据解析结果只从源数据库中抽取用户业务中需要的数据；最后，将这些数据在DTC-FUSION上展开融合计算，并将结果输出到用户指定的目标数据库。

实施例2

本实施例在实施例1的基础上进一步的，所述步骤S2中解析器对接收到的SQL语句进行解析前，解析器创建与源数据库的连接，读取源数据库中的元数据。

实施例3

本实施例在实施例1的基础上进一步的，所述作业的内容包括数据地址和操作命令。

进一步的，DTC-FUSION与源数据库和目标数据库连接，所述步骤S5中DTC-FUSION执行接收到的作业时，根据作业内容中的数据地址读取源数据库中的数据，根据作业内容中的操作命令对读取到的数据进行处理。

实施例4

本实施例在实施例1的基础上进一步的，所述源数据库和目标数据库包括关系型数据库、非关系型数据库中的至少一种。

实施例5

一种数据源融合计算组件，包括根据IDE规范封装的解析器、DTC-SERVER、DTC-FUSION、元数据接口、SQL接口和数据库接口；其中元数据接口用于解析器读取元数据，SQL接口用于用户将SQL语句提交到解析器，数据库接口用于DTC-FUSION从数据源读取数据及将数据写入数据源中。

解析器：执行上述的步骤S1、S2、S3；

DTC-SERVER：执行上述的步骤S4；

DTC-FUSION：执行上述的步骤S5。

实施例6

实施例7

本实施例为本方案的部分功能的实现代码，包括：

数据源插件实现（由于数据源融合需要对接多个数据源，那么就有多种数据源插件）：

以MySQL读取插件为例功能代码：

classMySQLReader(dtcModelLabelInfo:DtcModelLabelInfo,SparkSession:SparkSession)

extendsJdbcDataReader(dtcModelLabelInfo,SparkSession,newMySQLDataBaseMeta){

}。

上述代码继承了JDBC的读取父类：

classJdbcDataReader(dtcModelLabelInfo:DtcModelLabelInfo,SparkSession:SparkSession,JDBCDataMeta:JdbcDataBaseMeta)

extendsDataReader(dtcModelLabelInfo,SparkSession){

overridedefreadData():DataFrame={

valurl=JDBCDataMeta.getJdbcUrl(dtcModelLabelInfo)

valtableName=dtcModelLabelInfo.getTableName

valpredicates=JDBCDataMeta.getPredicates(dtcModelLabelInfo)

valconnectionProperties=JDBCDataMeta.getConnectionProperties(dtcModelLabelInfo)

SparkSession.read.JDBC(url,tableName,predicates,connectionProperties)

}

}。

然后再通过JVM的反射的机制再添加其他的数据读取插件。

由于是多数据源融合，那么在有数据源读取插件之后，就需要有数据融合的插件（数据融合插件时通过使用SparkSQL的方式做数据计算引擎）：

defdataFuse(dataFrameMap:Map[String,DataFrame],dtcModel:DtcModel,SparkSession:SparkSession):DataFrame={

valchildrens=dtcModel.getDtcModelIndex.getChildrens

//executejobSQLtree

disposeTreeDtc("",childrens.toList,dtcModel,dataFrameMap,SparkSession)

//executefinalfusionSQL

valdtcModelIndex=dtcModel.getDtcModelIndex

valfinalDataFusionSQL=DataFusionSQLBuild.buildDataFusionSQL(dtcModelIndex)

logger.info(s"executefinalfusionSQL=$finalDataFusionSQL")

SparkSession.SQL(finalDataFusionSQL)

}。

由于整个数据融合是一个不规则的树结构，那么就需要从叶子节点进行数据读取，遇到中间节点进行数据融合，在到顶端就是数据存储。

上述在进行数据融合完成之后，由于需要有数据存储的功能，那么针对不同的数据源需要有不同的数据存储插件：

以MySQL存储插件为例展示功能代码：

classMySQLWriter(dtcModel:DtcModel,SparkSession:SparkSession)

extendsJdbcDataWriter(dtcModel,SparkSession,newMySQLDataBaseMeta){

}。

在MySQL存储的插件里面需要实现JDBC的存储类：

classJdbcDataWriter(dtcModel:DtcModel,SparkSession:SparkSession,JDBCDataMeta:JdbcDataBaseMeta)

extendsDataWriter(dtcModel,SparkSession){

overridedefdataWrite(dataFrame:DataFrame):Unit={

valurl=JDBCDataMeta.getJdbcUrl(dtcModel.getDtcModelIndex)

valtableName=dtcModel.getDtcModelIndex.getTableName

valproperties=JDBCDataMeta.getConnectionProperties(dtcModel.getDtcModelIndex)

dataFrame.write.mode("append").JDBC(url,tableName,properties)

}

}。

上面是JDBC的数据存储部分代码，使用Spark的dataset<row>的数据结构对数据进行存储操作。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据源融合计算方法，包括源数据库、目标数据库和解析器，其特征在于：基于用于接收、管理、调度用户作业的服务DTC-SERVER和流式的数据流执行引擎DTC-FUSION，还包括以下步骤：

S1、解析器接收用户发送的SQL语句；

S2、解析器对接收到的SQL语句进行解析得到作业，所述作业的内容包括数据地址和操作命令；

S3、解析器将步骤S2得到的作业发布到DTC-SERVER服务；

S4、DTC-SERVER服务管理并调度作业，提交作业到DTC-FUSION执行；

S5、DTC-FUSION执行接收到的作业，并将计算结果输出到目标数据库；

DTC-FUSION与源数据库和目标数据库连接，步骤S5中DTC-FUSION执行接收到的作业时，根据作业内容中的数据地址读取源数据库中的数据，根据作业内容中的操作命令对读取到的数据进行处理。

2.根据权利要求1所述的一种数据源融合计算方法，其特征在于：所述步骤S2中解析器对接收到的SQL语句进行解析前，解析器创建与源数据库的连接，读取源数据库中的元数据。

3.根据权利要求1所述的一种数据源融合计算方法，其特征在于：所述步骤S2中的作业为JSON模版格式。

4.根据权利要求1所述的一种数据源融合计算方法，其特征在于：所述源数据库和目标数据库包括关系型数据库、非关系型数据库中的至少一种。

5.根据权利要求4所述的一种数据源融合计算方法，其特征在于：所述源数据库和目标数据库采用MySQL、Hive、Mongo、Elasticsearch、SQLServer、oracle数据库中的至少一种。

6.一种数据源融合计算装置，其特征在于：包括存储器和处理器，所述处理器用于加载一种数据源融合计算组件；

所述组件包括根据IDE规范封装的解析器、DTC-SERVER、DTC-FUSION、元数据接口、SQL接口和数据库接口；

解析器：执行如权利要求1所述的步骤S1、S2、S3；

DTC-SERVER：执行如权利要求1所述的步骤S4；

DTC-FUSION：执行如权利要求1所述的步骤S5。