CN113468177A

CN113468177A - 数据构建方法

Info

Publication number: CN113468177A
Application number: CN202110759774.2A
Authority: CN
Inventors: 张阳; 杨秦敏; 宁海元
Original assignee: Hangzhou Daishu Technology Co ltd
Current assignee: Hangzhou Daishu Technology Co ltd
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-10-01

Abstract

本发明涉及大数据技术领域，为解决目前数据库工具在大批量构建数据时效率较低、资源消耗较大的技术问题，提出了一种数据构建方法，该方法包括以下步骤：通过yaml配置文件来配置数据库和DAGScheduleX接口请求信息；读取yaml配置文件中的数据库配置信息；通过读取的数据库配置信息创建对应的数据库写入表信息；根据所述数据库配置信息和所述数据库写入表信息构建数据同步任务的Json；读取DAGScheduleX接口请求信息，使用HTTP请求DAGScheduleX创建数据同步任务。本发明能够快速高效地构建大批量的数据，且资源消耗较低。

Description

数据构建方法

技术领域

本发明涉及大数据技术领域，具体涉及一种数据构建方法。

背景技术

诸如Navicat、DataGrip、DBeaver等数据库工具，都是通过数据操作DML插入语句人工通过命令行的方式提交，编写DML语句产生大量的耗时，并且不同的数据库工具插入的写法都各式各样，需要花费一些时间去学习如何使用，有一定的上手难度。数据库工具在大批量构建数据时效率较低，大批量构建将会耗费GB级别的内存资源。

发明内容

本发明为解决上述技术问题，提供了一种数据构建方法，能够快速高效地构建大批量的数据，且资源消耗较低。

本发明采用的技术方案如下：

一种数据构建方法，包括以下步骤：通过yaml配置文件来配置数据库和DAGScheduleX接口请求信息；读取yaml配置文件中的数据库配置信息；通过读取的数据库配置信息创建对应的数据库写入表信息；根据所述数据库配置信息和所述数据库写入表信息构建数据同步任务的Json；读取DAGScheduleX接口请求信息，使用HTTP请求DAGScheduleX创建数据同步任务。

其中，使用yamlFunc读取yaml配置文件中的数据库配置信息。

其中，使用dbFunc通过读取的数据库配置信息创建对应的数据库写入表信息。

其中，使用JsonFunc根据所述数据库配置信息和所述数据库写入表信息构建数据同步任务的Json。

其中，使用yamlFunc读取DAGScheduleX接口请求信息，通过requestsFunc使用HTTP请求DAGScheduleX创建数据同步任务。

所述数据库写入表信息包括表名称和表类型，根据所述数据库配置信息和所述数据库写入表信息构建数据同步任务的Json，具体包括：使用JsonFunc读取表名称和表类型，通过表名称和表类型构建Writer的Column参数，并结合从所述yaml配置文件中读取的数据库配置信息，构建数据同步任务Writer部分的Json；使用JsonFunc读取表名称和表类型，通过表名称和表类型构建Reader的Column参数，读取所述yaml配置文件中插入数据量参数，构建数据同步任务Reader部分的Json；读取所述yaml配置文件中作业并发度，构建数据同步任务Setting部分的Json；将Reader、Writer、Setting三个部分的Json构建成数据同步任务的Json。

所述的数据构建方法还包括：对插入数据量、速率及日志信息进行显示。

其中，通过数栈离线运维中心或Apache Flink Dashboard对插入数据量、速率及日志信息进行显示。

本发明的有益效果：

(1)节省学习数据库工具成本，节省编写DML语句的耗时；(2)提高构建大批量数据的效率，降低资源消耗；(3)支持通过运行结果输出的Json文件在数栈离线项目数据同步任务中使用；(4)支持通过配置控制插入数据量的大小和插入的速率；(5)支持创建插入大批量数据任务异步提交；(6)支持对数据的操作做到实时监控和统一的管理。

附图说明

图1为本发明实施例的数据构建方法的流程图；

图2为本发明一个实施例的数据构建方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例的数据构建方法包括以下步骤：

S1，通过yaml配置文件来配置数据库和DAGScheduleX接口请求信息。

本发明实施例支持Mysql、Oracle、Hbase等多种关系型和非关系型数据库，不同的数据库可具有不同的数据库配置信息，例如不同的url、用户名和密码等。yaml配置文件除了包含数据库配置信息、DAGScheduleX接口请求信息外，还可包含插入数据量参数sliceRecordCount和作业并发度channel等。

S2，读取yaml配置文件中的数据库配置信息。

在本发明的实施例中，可使用yamlFunc读取yaml配置文件中的数据库配置信息。

S3，通过读取的数据库配置信息创建对应的数据库写入表信息。

在本发明的实施例中，可使用dbFunc通过yamlFunc读取的数据库配置信息创建对应的数据库写入表信息。

S4，根据数据库配置信息和数据库写入表信息构建数据同步任务的Json。

在本发明的实施例中，可使用JsonFunc根据数据库配置信息和数据库写入表信息构建数据同步任务的Json。

数据库写入表信息包括表名称和表类型。具体地，可使用JsonFunc读取表名称和表类型，通过表名称和表类型构建Writer的Column参数，并结合从yaml配置文件中读取的数据库配置信息，构建数据同步任务Writer部分的Json；可使用JsonFunc读取表名称和表类型，通过表名称和表类型构建Reader的Column参数，读取yaml配置文件中插入数据量参数sliceRecordCount，Reader默认使用Flinkx-StreamReader插件，构建数据同步任务Reader部分的Json；可读取yaml配置文件中作业并发度channel，构建数据同步任务Setting部分的Json；最后，将Reader、Writer、Setting三个部分的Json构建成数据同步任务完整的Json。

S5，读取DAGScheduleX接口请求信息，使用HTTP请求DAGScheduleX创建数据同步任务。

在本发明的实施例中，可使用yamlFunc读取DAGScheduleX接口请求信息，通过requestsFunc使用HTTP请求DAGScheduleX创建数据同步任务。

进一步地，如图2所示，数据构建方法还可包括：

S6，对插入数据量、速率及日志信息进行显示。

在本发明的实施例中，可通过数栈离线运维中心或Apache Flink Dashboard对插入数据量、速率及日志信息进行显示。

进一步地，如果数据构建的任务失败，还可发布告警，例如通过邮件或钉钉等发布告警信息。

本发明实施例的数据构建方法具有以下优点：(1)节省学习数据库工具成本，节省编写DML语句的耗时；(2)提高构建大批量数据的效率，降低资源消耗；(3)支持通过运行结果输出的Json文件在数栈离线项目数据同步任务中使用；(4)支持通过配置控制插入数据量的大小和插入的速率；(5)支持创建插入大批量数据任务异步提交；(6)支持对数据的操作做到实时监控和统一的管理。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种数据构建方法，其特征在于，包括以下步骤：

通过yaml配置文件来配置数据库和DAGScheduleX接口请求信息；

读取yaml配置文件中的数据库配置信息；

通过读取的数据库配置信息创建对应的数据库写入表信息；

根据所述数据库配置信息和所述数据库写入表信息构建数据同步任务的Json；

读取DAGScheduleX接口请求信息，使用HTTP请求DAGScheduleX创建数据同步任务。

2.根据权利要求1所述的数据构建方法，其特征在于，其中，使用yamlFunc读取yaml配置文件中的数据库配置信息。

3.根据权利要求2所述的数据构建方法，其特征在于，其中，使用dbFunc通过读取的数据库配置信息创建对应的数据库写入表信息。

4.根据权利要求3所述的数据构建方法，其特征在于，其中，使用JsonFunc根据所述数据库配置信息和所述数据库写入表信息构建数据同步任务的Json。

5.根据权利要求4所述的数据构建方法，其特征在于，其中，使用yamlFunc读取DAGScheduleX接口请求信息，通过requestsFunc使用HTTP请求DAGScheduleX创建数据同步任务。

6.根据权利要求5所述的数据构建方法，其特征在于，所述数据库写入表信息包括表名称和表类型，根据所述数据库配置信息和所述数据库写入表信息构建数据同步任务的Json，具体包括：

使用JsonFunc读取表名称和表类型，通过表名称和表类型构建Writer的Column参数，并结合从所述yaml配置文件中读取的数据库配置信息，构建数据同步任务Writer部分的Json；

使用JsonFunc读取表名称和表类型，通过表名称和表类型构建Reader的Column参数，读取所述yaml配置文件中插入数据量参数，构建数据同步任务Reader部分的Json；

读取所述yaml配置文件中作业并发度，构建数据同步任务Setting部分的Json；

将Reader、Writer、Setting三个部分的Json构建成数据同步任务的Json。

7.根据权利要求6所述的数据构建方法，其特征在于，还包括：

对插入数据量、速率及日志信息进行显示。

8.根据权利要求7所述的数据构建方法，其特征在于，其中，通过数栈离线运维中心或Apache Flink Dashboard对插入数据量、速率及日志信息进行显示。