CN111522842A

CN111522842A - 一种etl数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN111522842A
Application number: CN202010631872.3A
Authority: CN
Inventors: 陈肖雅; 陈小勇; 金睿颖
Original assignee: Hangzhou Zhongyun Data Technology Co ltd; Huzhou Big Data Operation Co ltd; Hangzhou City Big Data Operation Co ltd
Current assignee: Hangzhou Zhongyun Data Technology Co ltd; Huzhou Big Data Operation Co ltd; Hangzhou City Big Data Operation Co ltd
Priority date: 2020-07-04
Filing date: 2020-07-04
Publication date: 2020-08-11

Abstract

本发明属于计算机数据处理技术领域，公开一种ETL数据处理方法、装置、计算机设备和存储介质。ETL数据处理方法包括以下步骤：与源数据库连接，从所述源数据库中获取第一源数据表；通过预设的标准源数据表对所述第一源数据表进行识别和匹配，将所述第一源数据表的数据同步到所述标准源数据表；将所述标准源数据表与预设的标准目标表关联，将所述标准源数据表的数据同步到所述标准目标表中。本发明实施例提供的ETL数据处理方法将其他源数据表配置到标准源数据表，并将标准源数据表同步到目标数据库能够快速的进行数据的处理，提高了数据处理效率。

Description

一种ETL数据处理方法、装置、计算机设备和存储介质

技术领域

本发明属于计算机数据处理技术领域，尤其涉及一种ETL数据处理方法、装置、计算机设备和存储介质。

背景技术

信息是现代企业的重要资源，是企业运用科学管理、决策分析的基础。企业通过ETL(Extract-Transform-Load，提取、转换、加载)技术手段，抽取来自不同数据源的异构源数据，对抽取的源数据进行清洗、转换、加载处理，并将处理后的数据置入数据仓库中。

目前比较前沿的ETL技术的主要研究方向是，通过组件封装、自然语言、元数据管理等技术来提高开发效率，数据管理更加有序。但目前市面上的发明只够支持一些简单的sql操作语句，对提高工作效率并没有起到太多的作用；对于数据的收集整理需要人工提取制定目标数据表，人工配置工作量大。

可见，现有技术中的ETL工具对于数据的归集管理流程不够自动有效，无法满足程序自动化的需求。

发明内容

本发明实施例的目的在于提供一种ETL数据处理方法、装置、计算机设备和存储介质，旨在解决现有技术中的ETL工具对于数据的归集管理流程不够自动有效，无法满足程序自动化的需求的问题。

本发明实施例是这样实现的，一种ETL数据处理方法，包括以下步骤：

与源数据库连接，从所述源数据库中获取第一源数据表；

通过预设的标准源数据表对所述第一源数据表进行识别和匹配，将所述第一源数据表的数据同步到所述标准源数据表；

将所述标准源数据表与预设的标准目标表关联，将所述标准源数据表的数据同步到所述标准目标表中，以将所述标准目标表数据同步到目标数据库，完成ETL数据处理。

本发明实施例的另一目的在于提供一种ETL数据处理装置，包括：

数据获取单元，用于与源数据库连接，从所述源数据库中获取第一源数据表；

源数据标准处理单元，用于通过预设的标准源数据表对所述第一源数据表进行识别和匹配，将所述第一源数据表的数据同步到所述标准源数据表；

目标表同步处理单元，用于将所述标准源数据表与预设的标准目标表关联，将所述标准源数据表的数据同步到所述标准目标表中，以将所述标准目标表数据同步到目标数据库，完成ETL数据处理。

本发明实施例的另一目的在于提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述ETL数据处理方法的步骤。

本发明实施例的另一目的在于提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述ETL数据处理方法的步骤。

本发明实施例提供的ETL数据处理方法将其他源数据表配置到标准源数据表，并将标准源数据表同步到目标数据库能够快速的进行数据的处理，提高了数据处理效率。

附图说明

图1为本发明实施例提供的ETL数据处理方法的流程图；

图2为本发明实施例提供的另一ETL数据处理方法的流程图；

图3为本发明实施例提供的建立标准源数据表的流程图；

图4为本发明实施例提供的将所述第一源数据表的数据同步到所述标准源数据表的流程图；

图5为本发明实施例提供的将所述第一源数据表和所述标准源数据表进行对比的流程图；

图6为本发明实施例提供的ETL数据处理装置的结构框图；

图7为本发明实施例提供的另一ETL数据处理装置的结构框图；

图8为本发明实施例提供的计算机设备的内部结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一xx脚本称为第二xx脚本，且类似地，可将第二xx脚本称为第一xx脚本。

实施例一

如图1所示，在一个实施例中，给出一种ETL数据处理方法的流程图，本实施例主要以该方法应用于终端或服务器来举例说明。一种ETL数据处理方法，具体可以包括以下步骤：

步骤S101，与源数据库连接，从所述源数据库中获取第一源数据表；

步骤S102，通过预设的标准源数据表对所述第一源数据表进行识别和匹配，将所述第一源数据表的数据同步到所述标准源数据表；

步骤S103，将所述标准源数据表与预设的标准目标表关联，将所述标准源数据表的数据同步到所述标准目标表中，以将所述标准目标表数据同步到目标数据库，完成ETL数据处理。

在本发明实施例中，源数据库主要是指进行ETL数据处理的对象库，其能直接提供原始资料或具体数据可包括数值数据库、文本-数值数据库、全文数据库、术语数据库、图像数据库、音视频数据库等等。具体的比如可以使某个行业的业务库，当然上述仅是作为源数据库的一个举例，并不对本发明实施例中的ETL数据处理方法应用的对象进行严格的限定。

在本发明实施例中，预设的标准源数据表和预设的标准目标表可以是按照一定的行业数据分析后进行创建的，具体的，如图2，为本发明实施例中提供的另一ETL数据处理方法的流程图，其中，其与图1中的不同之处在于，在执行步骤S102之前，还具体包括：

步骤S201，获取行业数据，根据所述行业数据分析行业关键指标数据，并根据所述关键指标数据建立标准目标表；和/或

步骤S202，获取行业数据，根据所述行业数据提取第二源数据表，并根据所述第二源数据表建立标准源数据表，所述标准源数据表的标准内容包括但不限于表格格式标准和字段标准。

在本发明实施例中，行业数据相当于作为样本数据，通过对行业数据的分析，研究其行业关键数据的规律和统计情况，从而有针对性的建立对应行业有关关键指标数据的标准目标表格式，从而对于该相关行业的数据能够快速按照标准格式进行整理，极大地提高ETL数据处理速度。

具体的，在分析行业数据的时候，具体分析关键指标数据可以是通过分类提取指标，比如，本发明实施例中以电商行业为例进行说明。针对电商行业，统计电商行业相关的行业数据，其可能包括的信息有针对商品销量分析，具体比如包括各品类商品趋势分析、季节、时段效应、活动效应、品牌效应、各渠道销量比较与趋势分析、各类用户销量分析等相关的内容；相关内容在第一源数据表集中可能是通过某些指标进行统计的，比如从商品销量分析中提取的指标有订单数、复购率、退货率、满意度等，更为具体的可能通过分类从各个维度进行分析统计的数据，比如分为从商品维度包括：商品名称、商品编号、商品类别、品牌、价位，从时间维度包括：年、月、日、时段、季节、是否工作日，从活动维度包括：活动id、活动名称、活动类别，从用户维度包括：用户id、用户年限、消费等级、偏好品类、偏好品牌。在本发明实施例中，根据所述行业数据分析行业关键指标数据，并根据所述关键指标数据建立标准目标表则是将上述涉及的内容通过预设的标准格式表格对其详细字段内容进行统计，然后形成标准目标表统计样本。并且，在本发明实施例中分析的行业数据越多，结合其建立的标准源数据表的完整性越好。同时，可以理解的是，在本发明实施例中，建立标准目标表之后，可以将一定数量的标准目标表组成标准目标表库，以便随时相应的调用。

在本发明实施例中，如图3，为本发明实施例中提供的建立标准源数据表的流程图，步骤S202具体包括：

步骤S301，获取行业数据，根据所述行业数据提取第二源数据表；

步骤S302，按照预设规则对所述第二源数据表进行字段命名标准化处理，以形成标准源数据表；其中对所述第二源数据表进行字段命名标准化处理包括但不限于将所述第二源数据表中所有用于表达同一含义的字段用同一字段表示。

具体的，结合上述电商行业的例子，第二源数据表可以是商品表、订单表、用户表等，这一类数据均可以来源于一般的行业共享数据库，比如电子商城的业务数据库等。其中，在对第二源数据表进行字段命名标准化处理的过程具体是指将关键指标字段进行标准化命名，考虑到即使在同一个行业数据集合，同一个数据指标，其命名的方式可能会存在不同，因而，现将用于表达同一个含义的关键指标字段进行统一，以便进行分析。具体的，比如，前面所述电商行业例子，在其中一个第二源数据表中登记了商品编号，但是也同时登记了商品代号，实质上二者均登记了同一商品内容，所以将二者统一用商品编号进行表示，以便形成规范统一的表格和关键指标字段。

在本发明实施例中，在执行步骤S102时，若无法通过所述标准源数据表库识别第一源数据表，则将所述第一源数据表作为所述第二源数据表进行处理。

在一些行业数据发布的平台，有时候可能涉及到全新的数据格式信息，那么在获取到相关的全新数据格式信息的时候，按照之前的标准源数据表和标准目标表可能会存在无法有效及时的统计获取，因而可以将其作为新的源数据表进行处理，即将其作为本发明实施例中所述的第一源数据表构建相应的标准源数据表和相应的标准目标表，以便提高ETL数据处理的灵活性。

在本发明实施例中，如图4，为本发明实施例中提供的将所述第一源数据表的数据同步到所述标准源数据表的流程图，步骤S102具体包括：

步骤S401，将所述第一源数据表和所述标准源数据表进行对比；

步骤S402，将与所述标准源数据表含有相同含义字段的至少一个所述第一源数据表与所述标准源数据表进行关联；

步骤S403，将所述至少一个所述第一源数据表的数据同步到所述标准源数据表中。

其中，将所述第一源数据表和所述标准源数据表进行对比，从而找到第一源数据表和标准源数据表之间关键指标数据的字段对应关系，根据该对应关系将第一源数据表和标注源数据表关联起来。同时在将第一源数据表与标准源数据表中的字段建立对应关系的时候，即使多个第一源数据表中的数据对应着相同的标准源数据表，可以将包含有与标准数据表对应数据字段的多个第一源数据表的有关部分进行整理输出在同一个标准源数据表中，以便进行统一归集处理。

进一步的，在用对比识别将第一源数据表和标准源数据表建立关联后，可以利用自动生成相应的SQL语句，该功能语句相当于可以实现数据同步的智能组件，进而将第一源数据表数据同步到标准源数据表中。

在本发明实施例中，如图5，为本发明实施例中提供的将所述第一源数据表和所述标准源数据表进行对比的流程图，步骤S401具体包括：

步骤501，识别所述第一源数据表的数据字段，比较所述第一源数据表的数据字段与所述标准源数据表中的数据字段含义是否相同；和/或

步骤502，通过所述第一源数据表的数据字段与所述标准源数据表中的数据字段的正则表达式判断二者的数据字段是否相同。

在本发明实施例中，对第二源数据表的数据字段识别，可以采用人工智能识别的方式进行，从而将尚未标准处理的第二源数据表与标准源数据表之间建立数据字段对应关系，将第二源数据表的数据按照对应的标准源数据表进行归集统计，便于进行配置同步。另外，本发明实施例中还可以通过正则表达式来表示各类数据，然后通过正则表达式来判断目标数据字段是否相同。

另外，在本发明实施例中，步骤S103中将所述标准源数据表与预设的标准目标表关联，将所述标准源数据表的数据同步到所述标准目标表中的步骤，具体包括：

在所述标准源数据表和所述目标表之间建立关联，通过包括但不限于清洗、聚合、指标提取计算的方式进行同步配置。

在本发明实施例中，在标准源数据表和标准目标表之间通过清洗、聚合、指标提取计算等手段进行配置处理在本发明所属技术领域中比较常见，再次不进一步的详细展开。

实施例二

如图6所示，在一个实施例中，提出了一种ETL数据处理装置，本实施例中该装置可以集成在终端或服务器中。一种ETL数据处理装置，具体可以包括：

数据获取单元610，用于与源数据库连接，从所述源数据库中获取第一源数据表；

源数据标准处理单元620，用于通过预设的标准源数据表对所述第一源数据表进行识别和匹配，将所述第一源数据表的数据同步到所述标准源数据表；

目标表同步处理单元630，用于将所述标准源数据表与预设的标准目标表关联，将所述标准源数据表的数据同步到所述标准目标表中，以将所述标准目标表数据同步到目标数据库，完成ETL数据处理。

在本发明实施例中，预设的标准源数据表和预设的标准目标表可以是按照一定的行业数据分析后进行创建的，具体的，如图7，为本发明实施例中提供的另一ETL数据处理装置的结构框图，其中，其与图6中的不同之处在于，还包括标准建立单元640，标准建立单元640用于执行以下步骤：

获取行业数据，根据所述行业数据分析行业关键指标数据，并根据所述关键指标数据建立标准目标表；和/或

获取行业数据，根据所述行业数据提取第二源数据表，并根据所述第二源数据表建立标准源数据表，所述标准源数据表的标准内容包括但不限于表格格式标准和字段标准。

在本发明实施例中，标准建立单元640建立标准源数据表的过程具体包括以下步骤：

获取行业数据，根据所述行业数据提取第二源数据表；

按照预设规则对所述第二源数据表进行字段命名标准化处理，以形成标准源数据表；其中对所述第二源数据表进行字段命名标准化处理包括但不限于将所述第二源数据表中所有用于表达同一含义的字段用同一字段表示。

在本发明实施例中，源数据标准处理单元620具体还用于，若无法通过所述标准源数据表库识别第一源数据表，则将所述第一源数据表作为所述第二源数据表进行处理。

在本发明实施例中，源数据标准处理单元620将所述第一源数据表的数据同步到所述标准源数据表的过程具体包括：

将所述第一源数据表和所述标准源数据表进行对比；

将与所述标准源数据表含有相同含义字段的至少一个所述第一源数据表与所述标准源数据表进行关联；

将所述至少一个所述第一源数据表的数据同步到所述标准源数据表中。

识别所述第一源数据表的数据字段，比较所述第一源数据表的数据字段与所述标准源数据表中的数据字段含义是否相同；和/或

通过所述第一源数据表的数据字段与所述标准源数据表中的数据字段的正则表达式判断二者的数据字段是否相同。

另外，在本发明实施例中，目标表同步处理单元630将所述标准源数据表与预设的标准目标表关联，将所述标准源数据表的数据同步到所述标准目标表中的步骤，具体包括：

实施例三

在一个实施例中，提出了一种计算机设备，计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

与源数据库连接，从所述源数据库中获取第一源数据表；

图8示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是独立的物理服务器或终端，也可以是多个物理服务器构成的服务器集群，可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。还可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。如图8所示，该计算机设备包括该计算机设备包括通过系统总线链接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现ETL数据处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行ETL数据处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

实施例四

在一个实施例中，提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

与源数据库连接，从所述源数据库中获取第一源数据表；

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种ETL数据处理方法，其特征在于，包括以下步骤：

与源数据库连接，从所述源数据库中获取第一源数据表；

2.根据权利要求1所述ETL数据处理方法，其特征在于，所述通过预设的标准源数据表对所述第一源数据表进行识别和匹配，将所述第一源数据表的数据同步到所述标准源数据表的步骤之前，还包括：

获取行业数据，根据所述行业数据分析行业关键指标数据，并根据所述关键指标数据建立标准目标表；和/或获取行业数据，根据所述行业数据提取第二源数据表，并根据所述第二源数据表建立标准源数据表，所述标准源数据表的标准内容包括但不限于表格格式标准和字段标准。

3.根据权利要求2所述ETL数据处理方法，其特征在于，所述获取行业数据，根据所述行业数据提取第二源数据表，并根据所述第二源数据表建立标准源数据表的步骤，具体包括：

获取行业数据，根据所述行业数据提取第二源数据表；

4.根据权利要求2所述ETL数据处理方法，其特征在于，所述通过预设的标准源数据表对所述第一源数据表进行识别和匹配，将所述第一源数据表的数据同步到所述标准源数据表的步骤，还包括：

若无法通过所述标准源数据表库识别第一源数据表，则将所述第一源数据表作为所述第二源数据表进行处理。

5.根据权利要求1所述ETL数据处理方法，其特征在于，所述通过预设的标准源数据表对所述第一源数据表进行识别和匹配，将所述第一源数据表的数据同步到所述标准源数据表的步骤，具体包括：

将所述第一源数据表和所述标准源数据表进行对比；

6.根据权利要求5所述ETL数据处理方法，其特征在于，所述将所述第一源数据表和所述标准源数据表进行对比的步骤，具体包括：

7.根据权利要求1所述ETL数据处理方法，其特征在于，所述将所述标准源数据表与预设的标准目标表关联，将所述标准源数据表的数据同步到所述标准目标表中的步骤，具体包括：

8.一种ETL数据处理装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至7中任一项所述ETL数据处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至7中任一项所述ETL数据处理方法的步骤。