CN115357657B - 数据处理方法、装置、计算机设备及存储介质 - Google Patents

数据处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN115357657B
CN115357657B CN202211299069.XA CN202211299069A CN115357657B CN 115357657 B CN115357657 B CN 115357657B CN 202211299069 A CN202211299069 A CN 202211299069A CN 115357657 B CN115357657 B CN 115357657B
Authority
CN
China
Prior art keywords
data
configuration
task
processed
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211299069.XA
Other languages
English (en)
Other versions
CN115357657A (zh
Inventor
请求不公布姓名
彭建祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shulian Cloud Computing Technology Co ltd
Original Assignee
Chengdu Shulian Cloud Computing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shulian Cloud Computing Technology Co ltd filed Critical Chengdu Shulian Cloud Computing Technology Co ltd
Priority to CN202211299069.XA priority Critical patent/CN115357657B/zh
Publication of CN115357657A publication Critical patent/CN115357657A/zh
Application granted granted Critical
Publication of CN115357657B publication Critical patent/CN115357657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,提供一种数据处理方法、装置、计算机设备及存储介质,应用于中心节点,中心节点和子节点通信连接,所述方法包括:生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置;将任务配置发送至子节点,以指示子节点按照所述任务配置执行ETL任务,以对待处理数据进行数据抽取、转换和加载处理。本发明极大地简化了配置过程,提高了配置效率。

Description

数据处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据处理方法、装置、计算机设备及存储介质。
背景技术
数据抽取、转换和加载ETL(Extraction-Transformation-Loading,ETL)负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
发明内容
本发明的目的在于提供了一种数据处理方法、装置、计算机设备及存储介质,能够高效地对多个ETL任务的任务配置。
为了实现上述目的,本发明采用的技术方案如下:
第一方面,本发明提供一种数据处理方法,应用于中心节点,所述中心节点和子节点通信连接,所述方法包括:
生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置;
将所述任务配置发送至所述子节点,以指示所述子节点按照所述任务配置执行所述ETL任务,以对所述待处理数据进行数据抽取、转换和加载处理。
上述方法通过由中心节点生成ETL任务的任务配置,再将生成的任务配置发送至子节点,实现了统一配置子节点的ETL任务调度,极大地简化配置过程,实现了子节点上多个ETL任务的统一配置,提高了配置效率。
进一步地,所述任务配置包括所述待处理数据所属的目标数据源的数据源配置,所述生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置的步骤包括:
根据所述目标数据源的类型,获取所述目标数据源的访问标识;
根据所述访问标识生成所述数据源配置。
上述方法根据目标数据源的类型生成数据源配置,实现了多种类型的目标数据源的统一配置处理,简化了数据源配置,提高了数据源配置效率。
进一步地,所述根据所述目标数据源的类型,获取所述目标数据源的访问标识的步骤包括:
若所述目标数据源为数据库类型,则将所述目标数据源对应的目标数据库的数据库标识、IP地址、端口及登录所述目标数据库的登录标识作为所述访问标识;
若所述目标数据源为第三方接口类型,则将所述目标数据源对应的URL及登录所述URL的登录标识作为所述访问标识;
若所述目标数据源为数据文件类型,则将所述目标数据源对应的目标数据文件的文件标识作为所述访问标识。
上述方法实现了数据库类型、第三方接口类型及数据文件类型三种不同类型的目标数据源的访问标识的自动获取,使得待处理数据的来源更丰富,从而可以适配更多的应用场景,同时也更方便对目标数据源进行扩展。
进一步地,所述任务配置包括数据集配置,所述生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置的步骤包括:
获取目标数据源的表结构,所述目标数据源用于指明所述待处理数据所属的数据源;
获取目标仓库的表结构,所述目标仓库用于存储所述待处理数据的处理结果;
根据所述目标数据源的表结构及所述目标仓库的表结构,生成所述数据集配置。
上述方法实现了自动根据目标数据源的表结构和目标仓库的表结构生成数据集配置,既能满足对目标数据源的表结构中指定字段进行配置,以获取满足处理要求的待处理数据,又能满足对目标仓库的表结构中指定字段进行配置,以将处理后的数据按照指定处理结果要求组织输出。
进一步地,所述目标数据源包括字段,所述根据所述目标数据源的表结构及所述目标仓库的表结构,生成所述数据集配置的步骤包括:
获取所述字段的长度、类型、值域的字段配置,所述字段配置用于对所述待处理数据进行校验;
获取所述字段之间的关系配置;
根据所述目标数据源的表结构、所述目标仓库的表结构,所述字段配置及所述关系配置,生成所述数据集配置。
上述方法实现的数据集配置能够按照字段的长度、类型、值域对待处理数据进行校验,同时使得待处理数据的字段之间满足预设关系,从而能够更细粒度确定待处理数据,使得待处理数据满足不同场景的需求。
进一步地,所述任务配置包括执行配置,所述生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置的步骤包括:
获取抽取所述待处理数据的抽取策略;
获取对所述待处理数据进行转换的转换策略;
获取表征输出所述待处理数据的转换结果的输出策略;
根据所述抽取策略、转换策略及所述输出策略生成所述执行配置。
上述方法通过自动获取待处理数据预先配置的抽取策略、转换策略及输出策略,并自动生成执行配置,使得待处理数据的执行过程配置更灵活、更便于对抽取策略、转换策略和输出策略进行调整,从而具有扩展性。
进一步地,所述任务配置包括计划配置,所述生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置的步骤包括:
获取所述ETL任务的执行时间和执行周期;
根据所述执行时间和执行周期,生成所述计划配置。
上述方法通过根据执行时间和执行周期生成计划配置,实现了按照执行时间和执行周期对任务的执行时间进行自动化配置,能够满足ETL任务的不同执行时间的要求。
进一步地,所述子节点为多个,所述方法还包括:
获取每一所述子节点的ETL任务的执行结果;
对所有子节点的执行结果进行统计。
上述方法对所有子节点的执行结果进行自动统计,以便中心节点根据统计结果进行进一步数据分析。
进一步地,所述方法还包括:
接收所述子节点发送的注册请求;
根据所述注册请求获取访问所述子节点的连接信息,以根据所述连接信息将所述任务配置发送至所述子节点。
上述方法通过对子节点发送的注册请求进行处理,使得子节点可以及时接收到任务配置,以便及时按照任务配置执行ETL任务。
第二方面,本发明提供一种数据处理装置,应用于中心节点,所述中心节点和子节点通信连接,所述装置包括:
生成模块,用于生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置;
发送模块,用于将所述任务配置发送至所述子节点,以指示所述子节点按照所述任务配置执行所述ETL任务,以对所述待处理数据进行数据抽取、转换和加载处理。
第三方面,本发明提供一种计算机设备,包括处理器和存储器,所述存储器用于存储程序,所述处理器用于在执行所述程序时,实现上述第一方面所述的数据处理方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面所述的数据处理方法。
与现有技术相比,本发明通过由中心节点生成ETL任务的任务配置,再将生成的任务配置发送至子节点,实现了统一配置子节点的ETL任务调度,极大地简化配置过程,提高了配置效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的应用场景示例图。
图2为本发明实施例提供的计算机设备的方框示例图。
图3为本发明实施例提供的数据处理的整体架构图。
图4为本发明实施例提供的数据处理方法的流程示例图一。
图5为本发明实施例提供的数据处理方法的流程示例图二。
图6为本发明实施例提供的数据处理方法的流程示例图三。
图7为本发明实施例提供的数据处理装置的方框示意图。
图标:10-中心节点;20-子节点;30-计算机设备;31-处理器;32-存储器;33-总线;34-通信接口;100-数据处理装置;110-生成模块;120-发送模块;130-统计模块;140-注册模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
目前常见的ETL技术有kettle,Datastage,Informatica等,虽然这些转换工具或平台功能都特别强大,能够处理复杂数据转换逻辑,但都是单节点的处理ETL任务,如果同时有多个ETL任务配置需要修改,则需要给每个ETL任务一一配置,操作繁琐耗时,且无法对每个ETL任务进行统一监控和统计,无法满足某些特定场景下的需求。
有鉴于此,本实施例提供一种数据处理方法、装置、计算机设备及存储介质,用于提高对多个ETL任务进行任务配置的配置效率,下面将对其进行详细描述。
请参考图1,图1为本发明实施例提供的应用场景示例图,图1中,中心节点10和多个子节点20通信连接,每一子节点20可以包括至少一个电子设备,电子设备可以是台式电脑、笔记本电脑、平板电脑、手机等。中心节点10生成任务配置,再将任务配置发送至各子节点20,子节点20根据接收到的任务配置执行ETL任务,并将ETL任务的执行情况反馈至中心节点10。
图1中的中心节点10可以是实体计算机设备或者实现与实体计算机设备具有相同功能的虚拟机,还可以是服务器或者由多台服务器组成的服务器集群,也可以是台式电脑、笔记本电脑、平板电脑、手机等电子设备。
基于图1,本实施例还提供了一种计算机设备30的方框示例图,计算机设备30可以是图1中的中心节点10,请参照图2,图2为本发明实施例提供的计算机设备30的方框示例图,计算机设备30包括处理器31、存储器32、总线33、通信接口34。处理器31、存储器32通过总线33连接,处理器31通过通信接口34与子节点20通信。
处理器31可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器31中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器31可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器32用于存储程序,例如本发明实施例中的数据处理装置,数据处理装置均包括至少一个可以软件或固件(firmware)的形式存储于存储器32中的软件功能模块,处理器31在接收到执行指令后,执行所述程序以实现本发明实施例中的数据处理方法。
存储器32可能包括高速随机存取存储器(RAM:Random Access Memory),也可能还包括非易失存储器(non-volatile memory)。可选地,存储器32可以是内置于处理器31中的存储装置,也可以是独立于处理器31的存储装置。
总线33可以是ISA总线、PCI总线或EISA总线等。图2仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
基于图1的应用场景和图2的方框示例图,本实施例还提供了数据处理的整体架构图,请参照图3,图3为本发明实施例提供的数据处理的整体架构图,图3中,数据处理包括数据源、数据采集、数据存储、数据管理及数据服务五个处理阶段。
数据源用于指明待处理数据的来源,可以是不同类型的数据来源,例如,数据库、第三方接口、数据文件、标准数据等,数据库可以包括关系数据库、非关系数据库等不同类型的数据库,第三方接口可以是网页提供的数据获取接口、也可以是第三方应用程序提供的数据获取接口,数据文件为按照预设格式进行数据组织的文件,例如txt文件、excel文件、cvs文件等,标准数据通常是期刊或专刊的特定格式的数据。
数据采集用于指明如何将从数据源获取待处理数据并对待处理数据进行ETL处理,并进行数据集成,数据包括、但不限于资源、文件、图片、音频及视频等,数据采集包括数据配置、数据管理及数据监控,还包括对数据进行可视化操作,数据采集还包括对数据进行实时同步,以便及时获取最新数据。
数据存储用于对处理后的数据进行存储,可以采用NoSQL工具、Hadoop工具对数据进行存储,还可以通过集群的方式对数据进行存储,也可以采取加速引擎提高存储效率。
数据管理可以采用统一建模与管理,使用DataStudio工具实现数据的调度管理、词表管理、日志管理及监控管理,还可以对数据的元数据采用独立的元数据仓库进行管理,根据元数据建立对应的挖掘模型,以便利用挖掘模型对数据进行挖掘和分析。
数据服务对外提供数据的使用,支持数据的浏览、检索、下载、分析、互动、发布等。
基于图1~图3,本实施例还提供了一种数据处理方法,该方法应用于图1中的中心节点、图2中的计算机设备,请参照图4,图4为本发明实施例提供的数据处理方法的流程示例图一,该方法包括以下步骤:
步骤S100,生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置。
在本实施例中,任务配置包括但不限于数据源配置、数据集配置、执行配置、计划配置中的至少一种。用户可以根据实际场景的需要对这几种配置进行任意组合以满足对应需求,也可以根据实际场景的需要增加其他配置。
在本实施例中,抽取是从各个不同的数据源抽取到临时数据库中,抽取的过程中会对数据进行清洗,数据清洗是过滤不符合要求的数据,不符合要求的数据主要是有不完整的数据、错误的数据和重复的数据三大类。
(1)不完整的数据,其特征是一些应该有的信息缺失,如供应商的名称,分公司的名称,客户的区域信息缺失、业务系统中主表与明细表不能匹配等。需要将这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。
(2)错误的数据,产生原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车、日期格式不正确、日期越界等。
(3)重复的数据,将重复的数据的记录所有字段导出来确定会否去重。
在本实施例中,数据转换主要是进行不一致的数据转换、数据粒度的转换和一些商务规则的计算。
(1)不一致数据转换,这个过程是一个整合的过程,将不同业务系统的相同类型的数据统一,比如同一个供应商在结算系统的编码是XX0001,而在CRM中编码是YY0001,这样在抽取过来之后统一转换成一个编码。
(2)数据粒度的转换,业务系统一般存储非常明细的数据,而数据仓库中的数据是用来分析的,不需要非常明细的数据,一般情况下,会将业务系统数据按照数据仓库粒度进行聚合。
(3)商务规则的计算,不同的企业有不同的业务规则,不同的数据指标,这些指标有的时候不是简单的加加减减就能完成,这个时候需要在ETL中将这些数据指标计算好了之后存储在数据仓库中,供分析使用。
在本实施例中,数据加载是将清洗、转换后的数据加载到数据仓库对应的维度表中。
步骤S101,将任务配置发送至子节点,以指示子节点按照任务配置执行ETL任务,以对待处理数据进行数据抽取、转换和加载处理。
在本实施例中,针对同类型的ETL任务,主节点可以只生成一份任务配置,而将该任务配置发送至各子节点,由各子节点各自执行。
在本实施例中,数据源配置是对待处理数据所属的目标数据源的配置,即待处理数据的来源的配置,作为一种实施方式,数据源配置的实现方式为:
(1)根据目标数据源的类型,获取目标数据源的访问标识。
在本实施例中,访问标识为访问目标数据源的标识,目标数据源的类型不同,其访问方式也不一样,因此,访问标识也不同。
若目标数据源为数据库类型,则将目标数据源对应的目标数据库的数据库标识、IP地址、端口及登录目标数据库的登录标识作为访问标识;
在本实施例中,数据库标识用于唯一表征数据库,IP地址是能够访问目标数据库的IP地址,可以是运行目标数据库的设备的IP地址,也可以是目标数据库对外提供的IP地址,登录标识包括、但不限于用户名、密码等。
若目标数据源为第三方接口类型,则将目标数据源对应的URL及登录URL的登录标识作为访问标识;
在本实施例中,若目标数据源来自于第三方应用,则第三方应用提供的访问方式是通过URL访问,需要将URL及登录标识作为访问标识。
若目标数据源为数据文件类型,则将目标数据源对应的目标数据文件的文件标识作为访问标识。
在本实施例中,文件标识可以包括文件访问路径和文件名。对于本地文件,文件访问路径包括文件本地路径,对于网络文件,文件访问路径包括文件网络路径。
(2)根据访问标识生成数据源配置。
在本实施例中,待处理数据可以是目标数据源中一部分数据,数据集配置用于指明待处理数据是目标数据源中符合预设配置的数据及处理后的数据要符合预设输出格式,对数据集配置的方式可以为:
(1)获取目标数据源的表结构,目标数据源用于指明待处理数据所属的数据源;
在本实施例中,目标数据源可以包括多个数据表,每一数据表的表结构可以包括多个字段、不同字段的长度、类型及值域可以不同,例如,班级学生表的表结构中包括姓名、性别、年龄等字段。
(2)获取目标仓库的表结构,目标仓库用于存储待处理数据的处理结果;
在本实施例中,目标仓库的表结构与目标数据源的表结构类似,此处不再赘述。
(3)根据目标数据源的表结构及目标仓库的表结构,生成数据集配置。
在本实施例中,为了保证待处理数据的正确性和可靠性,以免将不正确或者不可靠的待处理数据进行处理后存储至目标仓库,本实施例提供了一种生成数据集配置的实现方式:
(3.1)获取字段的长度、类型、值域的字段配置,字段配置用于对待处理数据进行校验;
在本实施例中,长度、类型、值域是字段的属性,根据字段的属性可以对待处理数据中对应字段的取值进行校验,例如,字段A的类型为数值型,若字段A的值为abc,则该值一定是错误的,字段A的值域为[0,100],若字段A的值为150,不再该值域范围内,则该值一定是错误的,不能通过校验,若字段A的值为90,在该值域范围内,则该值通过校验。
(3.2)获取字段之间的关系配置;
除了对字段的值进行配置,待处理数据可以是两个或者多个字段满足预设的关系配置,例如,关系配置为字段A的取值大于字段B的取值,或者字段A、字段B和字段C三者之和大于预设值。
(3.3)根据目标数据源的表结构、目标仓库的表结构,字段配置及关系配置,生成数据集配置。
在本实施例中,执行配置是对ETL任务的执行方式的配置,对执行配置的方式可以是:
(1)获取抽取待处理数据的抽取策略;
(2)获取对待处理数据进行转换的转换策略;
(3)获取表征输出待处理数据的转换结果的输出策略;
(4)根据抽取策略、转换策略及输出策略生成执行配置。
在本实施例中,对于待处理数据的ETL的处理包括抽取、转换及输出,抽取策略用于定义抽取待处理数据的规则,转换策略用于定义对待处理数据进行转换的规则,例如,对于精度转换、类型转换、统计字段、过滤字段等,待处理数据输出策略用于定义对待处理数据的输出格式的规则,输出格式包括、但不限于存储处理后的数据的文件的格式,例如,txt格式、cvs格式等。
在本实施例中,计划配置是对ETL任务的执行时间的配置,对计划配置的方式可以是:
(1)获取ETL任务的执行时间和执行周期;
(2)根据执行时间和执行周期,生成计划配置。
在本实施例中,执行时间和执行周期可以根据需要进行设置,子节点会根据计划配置在指定的执行时间、以指定的执行周期执行ETL任务。
在本实施例中,多节点为多个时,为了及时了解每一子节点的ETL任务的执行结果,并对所有子节点的执行结果进行统一分析,本实施例还提供了一种对执行结果进行统计的实现方式,请参照图5,图5为本发明实施例提供的数据处理方法的流程示例图二,该方法包括以下步骤:
步骤S110,获取每一子节点的ETL任务的执行结果;
步骤S111,对所有子节点的执行结果进行统计。
在本实施例中,除了对子节点的执行结果进行统计,还可以获取子节点执行ETL任务的日志,以便根据每一子节点的日志对其任务执行过程进行分析。
在本实施例中,为了及时将任务配置发送至子节点,使得子节点及时根据任务配置执行ETL任务,本实施例还提供了一种及时将配置任务发送子节点的处理方式,请参照图6,图6为本发明实施例提供的数据处理方法的流程示例图三,该方法包括以下步骤:
步骤S120,接收子节点发送的注册请求;
步骤S121,根据注册请求获取访问子节点的连接信息,以根据连接信息将任务配置发送至子节点。
中心节点和子节点通过netty技术实现不同节点之间的消息通讯,netty技术是提供异步的、事件驱动的网络应用程序框架和工具,实现中心节点10任务配置批量下发到各子节点20,以及监听各子节点20的心跳状态等功能。
为了执行上述实施例及各个可能的实施方式中数据处理方法的相应步骤,下面给出相关的数据处理装置的实现方式,需要说明的是,本实施例所提供的相关的数据处理装置,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及指出。
请参照图7,图7示出了本发明实施例提供的数据处理装置100的方框示意图,数据处理装置100包括生成模块110、发送模块120、统计模块130及注册模块140。
生成模块110,用于生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置。
发送模块120,用于将任务配置发送至子节点,以指示子节点按照任务配置执行ETL任务,以对待处理数据进行数据抽取、转换和加载处理。
进一步地,任务配置包括待处理数据所属的目标数据源的数据源配置,发送模块120具体用于:根据目标数据源的类型,获取目标数据源的访问标识;根据访问标识生成数据源配置。
进一步地,发送模块120在用于根据目标数据源的类型,获取目标数据源的访问标识时,具体用于:若目标数据源为数据库类型,则将目标数据源对应的目标数据库的数据库标识、IP地址、端口及登录目标数据库的登录标识作为访问标识;若目标数据源为第三方接口类型,则将目标数据源对应的URL及登录URL的登录标识作为访问标识;若目标数据源为数据文件类型,则将目标数据源对应的目标数据文件的文件标识作为访问标识。
进一步地,任务配置包括数据集配置,生成模块110具体还用于:获取目标数据源的表结构,目标数据源用于指明待处理数据所属的数据源;获取目标仓库的表结构,目标仓库用于存储待处理数据的处理结果;根据目标数据源的表结构及目标仓库的表结构,生成数据集配置。
进一步地,目标数据源包括字段,生成模块110具体还用于:获取字段的长度、类型、值域的字段配置,字段配置用于对待处理数据进行校验;获取字段之间的关系配置;根据目标数据源的表结构、目标仓库的表结构,字段配置及关系配置,生成数据集配置。
进一步地,任务配置包括执行配置,生成模块110具体还用于:获取抽取待处理数据的抽取策略;获取对待处理数据进行转换的转换策略;获取表征输出待处理数据的转换结果的输出策略;根据抽取策略、转换策略及输出策略生成执行配置。
进一步地,任务配置包括计划配置,生成模块110具体还用于:获取ETL任务的执行时间和执行周期;根据执行时间和执行周期,生成计划配置。
进一步地,子节点为多个,统计模块130用于:获取每一子节点的ETL任务的执行结果;对所有子节点的执行结果进行统计。
进一步地,注册模块用于:接收子节点发送的注册请求;根据注册请求获取访问子节点的连接信息,以根据连接信息将任务配置发送至子节点。
为了从整体上描述中心节点10和子节点20实现的各自功能,本实施例提供对中心节点10和子节点20实现功能进行划分的方式:中心节点10包括数据源管理模块、元数据管理模块、任务管理模块、任务监控模块、节点注册中心、数据分析模块 ,子节点20包括任务执行模块。
数据源管理模块:主要用于数据源的管理,如关系型数据库,数据文件,第三方接口等数据源的配置管理。
元数据管理模块:主要是管理数据源的元数据,包含数据集,数据表结构和字段,以及对字段的长度,字段类型,值域以及数据关系的配置,用于数据抽取和校验。
任务管理模块:主要用于ETL任务的配置,该模块提供了任务的复制功能,能够快速进行同任务的配置和任务分发给子节点的功能。还提供了对任务的定时调度功能,能够定时的调度和执行任务。
任务监控模块:主要用于对任务的执行情况的监控,实时监控各子节点的心跳状态,实时ETL任务的执行情况及统计各子节点任务的执行情况,提供子节点任务执行日志,用于数据统计分析。
节点注册中心模块:主要用于子节点的ETL任务的注册,中心节点和子节点通过netty技术实现不同节点之间的消息通讯,实现中心节点任务配置批量下发到各子节点,以及监听各子节点心跳状态。
数据分析模块:主要用于统计分析各子节点的ETL任务的执行情况,可以自定义统计查询,按照不同纬度对数据抽取情况做统计分析。
任务执行模块:主要用于ETL任务的执行,该模块中心节点和子节点都具有该功能,中心节点主要功能还是管理子节点状态,和测试配置的ETL任务,具体执行任务的还是子节点,子节点接收中心节点传过来的任务配置,然后根据任务的调度配置定时执行任务,实时生成日志传给中心节点。所以子节点会比较容易统一部署,方便配置多个子节点任务。
综上所述,本发明实施例提供了一种数据处理方法、装置、计算机设备及存储介质,应用于中心节点,中心节点和子节点通信连接,所述方法包括:生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置;将任务配置发送至子节点,以指示子节点按照所述任务配置执行ETL任务,以对待处理数据进行数据抽取、转换和加载处理。与现有技术相比,本发明实施例通过由中心节点生成ETL任务的任务配置,再将生成的任务配置发送至子节点,实现了统一配置子节点的ETL任务调度,极大地简化配置过程,提高了配置效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据处理方法,其特征在于,应用于中心节点,所述中心节点和子节点通信连接,所述方法包括:
生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置,所述任务配置包括数据集配置,所述数据集配置是根据目标数据源的表结构和目标仓库的表结构生成的;
将所述任务配置发送至所述子节点,以指示所述子节点按照所述任务配置执行所述ETL任务,以对所述待处理数据进行数据抽取、转换和加载处理;
所述生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置的步骤包括:
获取目标数据源的表结构,所述目标数据源用于指明所述待处理数据所属的数据源,所述目标数据源包括字段;
获取目标仓库的表结构,所述目标仓库用于存储所述待处理数据的处理结果;
获取所述字段的长度、类型、值域的字段配置,所述字段配置用于对所述待处理数据进行校验;
获取所述字段之间的关系配置;
根据所述目标数据源的表结构、所述目标仓库的表结构,所述字段配置及所述关系配置,生成所述数据集配置。
2.如权利要求1所述的数据处理方法,其特征在于,所述任务配置包括所述待处理数据所属的目标数据源的数据源配置,所述生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置的步骤包括:
根据所述目标数据源的类型,获取所述目标数据源的访问标识;
根据所述访问标识生成所述数据源配置。
3.如权利要求2所述的数据处理方法,其特征在于,所述根据所述目标数据源的类型,获取所述目标数据源的访问标识的步骤包括:
若所述目标数据源为数据库类型,则将所述目标数据源对应的目标数据库的数据库标识、IP地址、端口及登录所述目标数据库的登录标识作为所述访问标识;
若所述目标数据源为第三方接口类型,则将所述目标数据源对应的URL及登录所述URL的登录标识作为所述访问标识;
若所述目标数据源为数据文件类型,则将所述目标数据源对应的目标数据文件的文件标识作为所述访问标识。
4.如权利要求1所述的数据处理方法,其特征在于,所述任务配置包括执行配置,所述生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置的步骤包括:
获取抽取所述待处理数据的抽取策略;
获取对所述待处理数据进行转换的转换策略;
获取表征输出所述待处理数据的转换结果的输出策略;
根据所述抽取策略、转换策略及所述输出策略生成所述执行配置。
5.如权利要求1所述的数据处理方法,其特征在于,所述任务配置包括计划配置,所述生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置的步骤包括:
获取所述ETL任务的执行时间和执行周期;
根据所述执行时间和执行周期,生成所述计划配置。
6.如权利要求1所述的数据处理方法,其特征在于,所述子节点为多个,所述方法还包括:
获取每一所述子节点的ETL任务的执行结果;
对所有子节点的执行结果进行统计。
7.如权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
接收所述子节点发送的注册请求;
根据所述注册请求获取访问所述子节点的连接信息,以根据所述连接信息将所述任务配置发送至所述子节点。
8.一种数据处理装置,其特征在于,应用于中心节点,所述中心节点和子节点通信连接,所述装置包括:
生成模块,用于生成对待处理数据进行抽取、转换和加载的ETL任务的任务配置,所述任务配置包括数据集配置,所述数据集配置是根据目标数据源的表结构和目标仓库的表结构生成的;
发送模块,用于将所述任务配置发送至所述子节点,以指示所述子节点按照所述任务配置执行所述ETL任务,以对所述待处理数据进行数据抽取、转换和加载处理;
所述生成模块具体用于:获取目标数据源的表结构,所述目标数据源用于指明所述待处理数据所属的数据源,所述目标数据源包括字段;获取目标仓库的表结构,所述目标仓库用于存储所述待处理数据的处理结果;获取所述字段的长度、类型、值域的字段配置,所述字段配置用于对所述待处理数据进行校验;获取所述字段之间的关系配置;根据所述目标数据源的表结构、所述目标仓库的表结构,所述字段配置及所述关系配置,生成所述数据集配置。
9.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器用于存储程序,所述处理器用于在执行所述程序时,实现权利要求1-7中任一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的数据处理方法。
CN202211299069.XA 2022-10-24 2022-10-24 数据处理方法、装置、计算机设备及存储介质 Active CN115357657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211299069.XA CN115357657B (zh) 2022-10-24 2022-10-24 数据处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211299069.XA CN115357657B (zh) 2022-10-24 2022-10-24 数据处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN115357657A CN115357657A (zh) 2022-11-18
CN115357657B true CN115357657B (zh) 2023-03-24

Family

ID=84008232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211299069.XA Active CN115357657B (zh) 2022-10-24 2022-10-24 数据处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115357657B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
CN113360554A (zh) * 2020-03-06 2021-09-07 深圳法大大网络科技有限公司 一种数据抽取、转换和加载etl的方法和设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693297B (zh) * 2012-05-16 2015-03-11 华为技术有限公司 数据处理方法、节点和提取、转换和加载etl系统
CN104050042B (zh) * 2014-05-30 2017-06-13 北京先进数通信息技术股份公司 Etl作业的资源分配方法及装置
US9922103B2 (en) * 2014-10-21 2018-03-20 Bank Of America Corporation Copying datasets between data integration systems
CN104391989A (zh) * 2014-12-16 2015-03-04 浪潮电子信息产业股份有限公司 一种分布式etl一体机系统
CN107784026B (zh) * 2016-08-31 2021-08-20 杭州海康威视数字技术股份有限公司 一种etl数据处理方法及装置
CN106897411A (zh) * 2017-02-20 2017-06-27 广东奡风科技股份有限公司 基于Spark技术的ETL系统及其方法
US11354330B2 (en) * 2018-12-14 2022-06-07 Sisense Ltd. System and method for partitioning data based on authorization rules
CN115048205B (zh) * 2022-08-15 2023-02-07 广州粤芯半导体技术有限公司 Etl调度平台及其部署方法、计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
CN113360554A (zh) * 2020-03-06 2021-09-07 深圳法大大网络科技有限公司 一种数据抽取、转换和加载etl的方法和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
E-ETL: framework for managing evolving etl processes;Artur Wojciechowski;《PIKM "11: Proceedings of the 4th workshop on Workshop for Ph.D. students in information & knowledge management》;20111028;59-66 *
Research on private cloud platform of seed tracing based on Hadoop parallel computing;Li Dongming 等;《2015 4th International Conference on Computer Science and Network Technology (ICCSNT)》;20160616;134-137 *
面向工业大数据的分布式ETL系统的设计与实现;蔡明高;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180115(第01(2018)期);I138-779 *

Also Published As

Publication number Publication date
CN115357657A (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
US9659042B2 (en) Data lineage tracking
CN106776780B (zh) 一种云环境中数据交换与共享方法及系统
CN112688865B (zh) 一种图形化在线建模的opc ua网关的设计方法
CN111241078A (zh) 数据分析系统、数据分析的方法及装置
CN109656963B (zh) 元数据获取方法、装置、设备及计算机可读存储介质
CN104036365A (zh) 一种企业级数据服务平台建设方法
CN104572122A (zh) 一种软件应用数据的生成装置及方法
CN111176867B (zh) 数据共享交换及开放应用平台
CN109753596B (zh) 用于大规模网络数据采集的信源管理与配置方法和系统
CN111400393B (zh) 基于多应用平台的数据处理方法和装置、存储介质
US10986020B2 (en) Reconstructing message flows based on hash values
CN112347071A (zh) 一种配电网云平台数据融合方法及配电网云平台
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
CN106708965A (zh) 一种数据的处理方法和装置
CN108388623A (zh) Er关系生成方法、装置、计算机设备及存储介质
CN111143391A (zh) 一种数据共享交换方法及系统
CN113486008A (zh) 数据血缘分析方法、装置、设备及存储介质
CN111125045B (zh) 一种轻量级etl处理平台
CN115357657B (zh) 数据处理方法、装置、计算机设备及存储介质
CN115796758A (zh) 一种工厂规则管理平台
CN112907233A (zh) 高可用方案的管理方法、装置、设备和存储介质
CN113742313A (zh) 数据仓库构建方法、装置、计算机设备和存储介质
CN112235367A (zh) 一种实体行为关系消息订阅方法、系统、终端及存储介质
CN111625528A (zh) 配置管理数据库的校验方法、装置及可读存储介质
CN115168297A (zh) 绕行日志审计方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant