CN113468177A - 数据构建方法 - Google Patents

数据构建方法 Download PDF

Info

Publication number
CN113468177A
CN113468177A CN202110759774.2A CN202110759774A CN113468177A CN 113468177 A CN113468177 A CN 113468177A CN 202110759774 A CN202110759774 A CN 202110759774A CN 113468177 A CN113468177 A CN 113468177A
Authority
CN
China
Prior art keywords
database
data
information
json
synchronization task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110759774.2A
Other languages
English (en)
Inventor
张阳
杨秦敏
宁海元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Daishu Technology Co ltd
Original Assignee
Hangzhou Daishu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Daishu Technology Co ltd filed Critical Hangzhou Daishu Technology Co ltd
Priority to CN202110759774.2A priority Critical patent/CN113468177A/zh
Publication of CN113468177A publication Critical patent/CN113468177A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据技术领域,为解决目前数据库工具在大批量构建数据时效率较低、资源消耗较大的技术问题,提出了一种数据构建方法,该方法包括以下步骤:通过yaml配置文件来配置数据库和DAGScheduleX接口请求信息;读取yaml配置文件中的数据库配置信息;通过读取的数据库配置信息创建对应的数据库写入表信息;根据所述数据库配置信息和所述数据库写入表信息构建数据同步任务的Json;读取DAGScheduleX接口请求信息,使用HTTP请求DAGScheduleX创建数据同步任务。本发明能够快速高效地构建大批量的数据,且资源消耗较低。

Description

数据构建方法
技术领域
本发明涉及大数据技术领域,具体涉及一种数据构建方法。
背景技术
诸如Navicat、DataGrip、DBeaver等数据库工具,都是通过数据操作DML插入语句人工通过命令行的方式提交,编写DML语句产生大量的耗时,并且不同的数据库工具插入的写法都各式各样,需要花费一些时间去学习如何使用,有一定的上手难度。数据库工具在大批量构建数据时效率较低,大批量构建将会耗费GB级别的内存资源。
发明内容
本发明为解决上述技术问题,提供了一种数据构建方法,能够快速高效地构建大批量的数据,且资源消耗较低。
本发明采用的技术方案如下:
一种数据构建方法,包括以下步骤:通过yaml配置文件来配置数据库和DAGScheduleX接口请求信息;读取yaml配置文件中的数据库配置信息;通过读取的数据库配置信息创建对应的数据库写入表信息;根据所述数据库配置信息和所述数据库写入表信息构建数据同步任务的Json;读取DAGScheduleX接口请求信息,使用HTTP请求DAGScheduleX创建数据同步任务。
其中,使用yamlFunc读取yaml配置文件中的数据库配置信息。
其中,使用dbFunc通过读取的数据库配置信息创建对应的数据库写入表信息。
其中,使用JsonFunc根据所述数据库配置信息和所述数据库写入表信息构建数据同步任务的Json。
其中,使用yamlFunc读取DAGScheduleX接口请求信息,通过requestsFunc使用HTTP请求DAGScheduleX创建数据同步任务。
所述数据库写入表信息包括表名称和表类型,根据所述数据库配置信息和所述数据库写入表信息构建数据同步任务的Json,具体包括:使用JsonFunc读取表名称和表类型,通过表名称和表类型构建Writer的Column参数,并结合从所述yaml配置文件中读取的数据库配置信息,构建数据同步任务Writer部分的Json;使用JsonFunc读取表名称和表类型,通过表名称和表类型构建Reader的Column参数,读取所述yaml配置文件中插入数据量参数,构建数据同步任务Reader部分的Json;读取所述yaml配置文件中作业并发度,构建数据同步任务Setting部分的Json;将Reader、Writer、Setting三个部分的Json构建成数据同步任务的Json。
所述的数据构建方法还包括:对插入数据量、速率及日志信息进行显示。
其中,通过数栈离线运维中心或Apache Flink Dashboard对插入数据量、速率及日志信息进行显示。
本发明的有益效果:
(1)节省学习数据库工具成本,节省编写DML语句的耗时;(2)提高构建大批量数据的效率,降低资源消耗;(3)支持通过运行结果输出的Json文件在数栈离线项目数据同步任务中使用;(4)支持通过配置控制插入数据量的大小和插入的速率;(5)支持创建插入大批量数据任务异步提交;(6)支持对数据的操作做到实时监控和统一的管理。
附图说明
图1为本发明实施例的数据构建方法的流程图;
图2为本发明一个实施例的数据构建方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例的数据构建方法包括以下步骤:
S1,通过yaml配置文件来配置数据库和DAGScheduleX接口请求信息。
本发明实施例支持Mysql、Oracle、Hbase等多种关系型和非关系型数据库,不同的数据库可具有不同的数据库配置信息,例如不同的url、用户名和密码等。yaml配置文件除了包含数据库配置信息、DAGScheduleX接口请求信息外,还可包含插入数据量参数sliceRecordCount和作业并发度channel等。
S2,读取yaml配置文件中的数据库配置信息。
在本发明的实施例中,可使用yamlFunc读取yaml配置文件中的数据库配置信息。
S3,通过读取的数据库配置信息创建对应的数据库写入表信息。
在本发明的实施例中,可使用dbFunc通过yamlFunc读取的数据库配置信息创建对应的数据库写入表信息。
S4,根据数据库配置信息和数据库写入表信息构建数据同步任务的Json。
在本发明的实施例中,可使用JsonFunc根据数据库配置信息和数据库写入表信息构建数据同步任务的Json。
数据库写入表信息包括表名称和表类型。具体地,可使用JsonFunc读取表名称和表类型,通过表名称和表类型构建Writer的Column参数,并结合从yaml配置文件中读取的数据库配置信息,构建数据同步任务Writer部分的Json;可使用JsonFunc读取表名称和表类型,通过表名称和表类型构建Reader的Column参数,读取yaml配置文件中插入数据量参数sliceRecordCount,Reader默认使用Flinkx-StreamReader插件,构建数据同步任务Reader部分的Json;可读取yaml配置文件中作业并发度channel,构建数据同步任务Setting部分的Json;最后,将Reader、Writer、Setting三个部分的Json构建成数据同步任务完整的Json。
S5,读取DAGScheduleX接口请求信息,使用HTTP请求DAGScheduleX创建数据同步任务。
在本发明的实施例中,可使用yamlFunc读取DAGScheduleX接口请求信息,通过requestsFunc使用HTTP请求DAGScheduleX创建数据同步任务。
进一步地,如图2所示,数据构建方法还可包括:
S6,对插入数据量、速率及日志信息进行显示。
在本发明的实施例中,可通过数栈离线运维中心或Apache Flink Dashboard对插入数据量、速率及日志信息进行显示。
进一步地,如果数据构建的任务失败,还可发布告警,例如通过邮件或钉钉等发布告警信息。
本发明实施例的数据构建方法具有以下优点:(1)节省学习数据库工具成本,节省编写DML语句的耗时;(2)提高构建大批量数据的效率,降低资源消耗;(3)支持通过运行结果输出的Json文件在数栈离线项目数据同步任务中使用;(4)支持通过配置控制插入数据量的大小和插入的速率;(5)支持创建插入大批量数据任务异步提交;(6)支持对数据的操作做到实时监控和统一的管理。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种数据构建方法,其特征在于,包括以下步骤:
通过yaml配置文件来配置数据库和DAGScheduleX接口请求信息;
读取yaml配置文件中的数据库配置信息;
通过读取的数据库配置信息创建对应的数据库写入表信息;
根据所述数据库配置信息和所述数据库写入表信息构建数据同步任务的Json;
读取DAGScheduleX接口请求信息,使用HTTP请求DAGScheduleX创建数据同步任务。
2.根据权利要求1所述的数据构建方法,其特征在于,其中,使用yamlFunc读取yaml配置文件中的数据库配置信息。
3.根据权利要求2所述的数据构建方法,其特征在于,其中,使用dbFunc通过读取的数据库配置信息创建对应的数据库写入表信息。
4.根据权利要求3所述的数据构建方法,其特征在于,其中,使用JsonFunc根据所述数据库配置信息和所述数据库写入表信息构建数据同步任务的Json。
5.根据权利要求4所述的数据构建方法,其特征在于,其中,使用yamlFunc读取DAGScheduleX接口请求信息,通过requestsFunc使用HTTP请求DAGScheduleX创建数据同步任务。
6.根据权利要求5所述的数据构建方法,其特征在于,所述数据库写入表信息包括表名称和表类型,根据所述数据库配置信息和所述数据库写入表信息构建数据同步任务的Json,具体包括:
使用JsonFunc读取表名称和表类型,通过表名称和表类型构建Writer的Column参数,并结合从所述yaml配置文件中读取的数据库配置信息,构建数据同步任务Writer部分的Json;
使用JsonFunc读取表名称和表类型,通过表名称和表类型构建Reader的Column参数,读取所述yaml配置文件中插入数据量参数,构建数据同步任务Reader部分的Json;
读取所述yaml配置文件中作业并发度,构建数据同步任务Setting部分的Json;
将Reader、Writer、Setting三个部分的Json构建成数据同步任务的Json。
7.根据权利要求6所述的数据构建方法,其特征在于,还包括:
对插入数据量、速率及日志信息进行显示。
8.根据权利要求7所述的数据构建方法,其特征在于,其中,通过数栈离线运维中心或Apache Flink Dashboard对插入数据量、速率及日志信息进行显示。
CN202110759774.2A 2021-07-06 2021-07-06 数据构建方法 Pending CN113468177A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110759774.2A CN113468177A (zh) 2021-07-06 2021-07-06 数据构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110759774.2A CN113468177A (zh) 2021-07-06 2021-07-06 数据构建方法

Publications (1)

Publication Number Publication Date
CN113468177A true CN113468177A (zh) 2021-10-01

Family

ID=77878211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110759774.2A Pending CN113468177A (zh) 2021-07-06 2021-07-06 数据构建方法

Country Status (1)

Country Link
CN (1) CN113468177A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009282A (zh) * 2017-12-22 2018-05-08 武汉楚鼎信息技术有限公司 一种json数据同步到关系型数据库的方法及系统装置
CN109145055B (zh) * 2018-09-07 2020-10-30 杭州玳数科技有限公司 一种基于Flink的数据同步方法和系统
CN112100147A (zh) * 2020-07-27 2020-12-18 杭州玳数科技有限公司 基于Flink实现Binlog到HIVE的实时采集方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009282A (zh) * 2017-12-22 2018-05-08 武汉楚鼎信息技术有限公司 一种json数据同步到关系型数据库的方法及系统装置
CN109145055B (zh) * 2018-09-07 2020-10-30 杭州玳数科技有限公司 一种基于Flink的数据同步方法和系统
CN112100147A (zh) * 2020-07-27 2020-12-18 杭州玳数科技有限公司 基于Flink实现Binlog到HIVE的实时采集方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
袋鼠云: "数据开发枢纽:分布式任务调度引擎DAGScheduleX", 《袋鼠云技术荟》, pages 1 - 4 *
赵颖;蒋荟;: "基于数据同步技术的5T系统架构优化方案研究", 铁路计算机应用, no. 06 *

Similar Documents

Publication Publication Date Title
CN104317618B (zh) 一种固件分区处理方法和装置
CN101196945B (zh) 电路设计支持装置及方法、印刷电路板制造方法
CN111339041A (zh) 文件解析入库、文件生成方法及装置
CN113505580A (zh) 表格文件的解析方法和装置
CN112631911A (zh) 自动化测试方法、装置、计算机设备及存储介质
CN111367982B (zh) 导入tririga基础数据的方法、装置、计算机设备及存储介质
CN110472298B (zh) 电力市场模型的构建方法、装置、设备及存储介质
CN110069376A (zh) 一种关联造数的方法、装置、存储介质及计算机设备
CN111258819A (zh) MySQL数据库备份文件的数据获取方法、装置和系统
CN113127482A (zh) 数据质量的分析方法、装置、计算机设备和存储介质
CN113468177A (zh) 数据构建方法
CN111523174B (zh) 船体图纸中开孔的自动绘制方法、系统、设备和存储介质
CN110727399A (zh) 存储阵列管理方法及装置
CN111159985A (zh) 数据导出方法、装置、计算机设备和计算机可读存储介质
CN109582411A (zh) 图形用户界面生成方法、装置、计算机设备及存储介质
CN113377681A (zh) 测试案例数据处理方法、装置、电子设备及存储介质
CN114328486A (zh) 基于模型的数据质量核查方法及装置
CN114169306A (zh) 一种生成电子回执单的方法、装置、设备及可读存储介质
CN112256574A (zh) 一种车辆诊断方法、系统及相关设备
CN111611242A (zh) 一种实现Excel数据向数据库导入的方法
US11638373B2 (en) Material verification method and computing device utilizing method
CN112417012A (zh) 数据处理方法及系统
CN110928910A (zh) 高速读写Shapfile中的矢量要素的方法和装置
CN104462291A (zh) 一种数据处理的方法及装置
CN111400827A (zh) 依物料属性数据与插装规则产生插装提示的系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 311121 room 102-1 / F, room 102-2 / F, building 6, Haizhi center, 2301 yuhangtang Road, Cangqian street, Yuhang District, Hangzhou, Zhejiang Province

Applicant after: HANGZHOU DAISHU TECHNOLOGY Co.,Ltd.

Address before: 310030 8F, building 2, Hangzhou Internet innovation and entrepreneurship Park, 176 Zixia street, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: HANGZHOU DAISHU TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information