CN111522842A - 一种etl数据处理方法、装置、计算机设备和存储介质 - Google Patents

一种etl数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111522842A
CN111522842A CN202010631872.3A CN202010631872A CN111522842A CN 111522842 A CN111522842 A CN 111522842A CN 202010631872 A CN202010631872 A CN 202010631872A CN 111522842 A CN111522842 A CN 111522842A
Authority
CN
China
Prior art keywords
source data
data table
standard
data
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010631872.3A
Other languages
English (en)
Inventor
陈肖雅
陈小勇
金睿颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhongyun Data Technology Co ltd
Huzhou Big Data Operation Co ltd
Hangzhou City Big Data Operation Co ltd
Original Assignee
Hangzhou Zhongyun Data Technology Co ltd
Huzhou Big Data Operation Co ltd
Hangzhou City Big Data Operation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhongyun Data Technology Co ltd, Huzhou Big Data Operation Co ltd, Hangzhou City Big Data Operation Co ltd filed Critical Hangzhou Zhongyun Data Technology Co ltd
Priority to CN202010631872.3A priority Critical patent/CN111522842A/zh
Publication of CN111522842A publication Critical patent/CN111522842A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机数据处理技术领域,公开一种ETL数据处理方法、装置、计算机设备和存储介质。ETL数据处理方法包括以下步骤:与源数据库连接,从所述源数据库中获取第一源数据表;通过预设的标准源数据表对所述第一源数据表进行识别和匹配,将所述第一源数据表的数据同步到所述标准源数据表;将所述标准源数据表与预设的标准目标表关联,将所述标准源数据表的数据同步到所述标准目标表中。本发明实施例提供的ETL数据处理方法将其他源数据表配置到标准源数据表,并将标准源数据表同步到目标数据库能够快速的进行数据的处理,提高了数据处理效率。

Description

一种ETL数据处理方法、装置、计算机设备和存储介质
技术领域
本发明属于计算机数据处理技术领域,尤其涉及一种ETL数据处理方法、装置、计算机设备和存储介质。
背景技术
信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。企业通过ETL(Extract-Transform-Load,提取、转换、加载)技术手段,抽取来自不同数据源的异构源数据,对抽取的源数据进行清洗、转换、加载处理,并将处理后的数据置入数据仓库中。
目前比较前沿的ETL技术的主要研究方向是,通过组件封装、自然语言、元数据管理等技术来提高开发效率,数据管理更加有序。但目前市面上的发明只够支持一些简单的sql操作语句,对提高工作效率并没有起到太多的作用;对于数据的收集整理需要人工提取制定目标数据表,人工配置工作量大。
可见,现有技术中的ETL工具对于数据的归集管理流程不够自动有效,无法满足程序自动化的需求。
发明内容
本发明实施例的目的在于提供一种ETL数据处理方法、装置、计算机设备和存储介质,旨在解决现有技术中的ETL工具对于数据的归集管理流程不够自动有效,无法满足程序自动化的需求的问题。
本发明实施例是这样实现的,一种ETL数据处理方法,包括以下步骤:
与源数据库连接,从所述源数据库中获取第一源数据表;
通过预设的标准源数据表对所述第一源数据表进行识别和匹配,将所述第一源数据表的数据同步到所述标准源数据表;
将所述标准源数据表与预设的标准目标表关联,将所述标准源数据表的数据同步到所述标准目标表中,以将所述标准目标表数据同步到目标数据库,完成ETL数据处理。
本发明实施例的另一目的在于提供一种ETL数据处理装置,包括:
数据获取单元,用于与源数据库连接,从所述源数据库中获取第一源数据表;
源数据标准处理单元,用于通过预设的标准源数据表对所述第一源数据表进行识别和匹配,将所述第一源数据表的数据同步到所述标准源数据表;
目标表同步处理单元,用于将所述标准源数据表与预设的标准目标表关联,将所述标准源数据表的数据同步到所述标准目标表中,以将所述标准目标表数据同步到目标数据库,完成ETL数据处理。
本发明实施例的另一目的在于提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述ETL数据处理方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述ETL数据处理方法的步骤。
本发明实施例提供的ETL数据处理方法将其他源数据表配置到标准源数据表,并将标准源数据表同步到目标数据库能够快速的进行数据的处理,提高了数据处理效率。
附图说明
图1为本发明实施例提供的ETL数据处理方法的流程图;
图2为本发明实施例提供的另一ETL数据处理方法的流程图;
图3为本发明实施例提供的建立标准源数据表的流程图;
图4为本发明实施例提供的将所述第一源数据表的数据同步到所述标准源数据表的流程图;
图5为本发明实施例提供的将所述第一源数据表和所述标准源数据表进行对比的流程图;
图6为本发明实施例提供的ETL数据处理装置的结构框图;
图7为本发明实施例提供的另一ETL数据处理装置的结构框图;
图8为本发明实施例提供的计算机设备的内部结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
实施例一
如图1所示,在一个实施例中,给出一种ETL数据处理方法的流程图,本实施例主要以该方法应用于终端或服务器来举例说明。一种ETL数据处理方法,具体可以包括以下步骤:
步骤S101,与源数据库连接,从所述源数据库中获取第一源数据表;
步骤S102,通过预设的标准源数据表对所述第一源数据表进行识别和匹配,将所述第一源数据表的数据同步到所述标准源数据表;
步骤S103,将所述标准源数据表与预设的标准目标表关联,将所述标准源数据表的数据同步到所述标准目标表中,以将所述标准目标表数据同步到目标数据库,完成ETL数据处理。
在本发明实施例中,源数据库主要是指进行ETL数据处理的对象库,其能直接提供原始资料或具体数据可包括数值数据库、文本-数值数据库、全文数据库、术语数据库、图像数据库、音视频数据库等等。具体的比如可以使某个行业的业务库,当然上述仅是作为源数据库的一个举例,并不对本发明实施例中的ETL数据处理方法应用的对象进行严格的限定。
在本发明实施例中,预设的标准源数据表和预设的标准目标表可以是按照一定的行业数据分析后进行创建的,具体的,如图2,为本发明实施例中提供的另一ETL数据处理方法的流程图,其中,其与图1中的不同之处在于,在执行步骤S102之前,还具体包括:
步骤S201,获取行业数据,根据所述行业数据分析行业关键指标数据,并根据所述关键指标数据建立标准目标表;和/或
步骤S202,获取行业数据,根据所述行业数据提取第二源数据表,并根据所述第二源数据表建立标准源数据表,所述标准源数据表的标准内容包括但不限于表格格式标准和字段标准。
在本发明实施例中,行业数据相当于作为样本数据,通过对行业数据的分析,研究其行业关键数据的规律和统计情况,从而有针对性的建立对应行业有关关键指标数据的标准目标表格式,从而对于该相关行业的数据能够快速按照标准格式进行整理,极大地提高ETL数据处理速度。
具体的,在分析行业数据的时候,具体分析关键指标数据可以是通过分类提取指标,比如,本发明实施例中以电商行业为例进行说明。针对电商行业,统计电商行业相关的行业数据,其可能包括的信息有针对商品销量分析,具体比如包括各品类商品趋势分析、季节、时段效应、活动效应、品牌效应、各渠道销量比较与趋势分析、各类用户销量分析等相关的内容;相关内容在第一源数据表集中可能是通过某些指标进行统计的,比如从商品销量分析中提取的指标有订单数、复购率、退货率、满意度等,更为具体的可能通过分类从各个维度进行分析统计的数据,比如分为从商品维度包括:商品名称、商品编号、商品类别、品牌、价位,从时间维度包括:年、月、日、时段、季节、是否工作日,从活动维度包括:活动id、活动名称、活动类别,从用户维度包括:用户id、用户年限、消费等级、偏好品类、偏好品牌。在本发明实施例中,根据所述行业数据分析行业关键指标数据,并根据所述关键指标数据建立标准目标表则是将上述涉及的内容通过预设的标准格式表格对其详细字段内容进行统计,然后形成标准目标表统计样本。并且,在本发明实施例中分析的行业数据越多,结合其建立的标准源数据表的完整性越好。同时,可以理解的是,在本发明实施例中,建立标准目标表之后,可以将一定数量的标准目标表组成标准目标表库,以便随时相应的调用。
在本发明实施例中,如图3,为本发明实施例中提供的建立标准源数据表的流程图,步骤S202具体包括:
步骤S301,获取行业数据,根据所述行业数据提取第二源数据表;
步骤S302,按照预设规则对所述第二源数据表进行字段命名标准化处理,以形成标准源数据表;其中对所述第二源数据表进行字段命名标准化处理包括但不限于将所述第二源数据表中所有用于表达同一含义的字段用同一字段表示。
具体的,结合上述电商行业的例子,第二源数据表可以是商品表、订单表、用户表等,这一类数据均可以来源于一般的行业共享数据库,比如电子商城的业务数据库等。其中,在对第二源数据表进行字段命名标准化处理的过程具体是指将关键指标字段进行标准化命名,考虑到即使在同一个行业数据集合,同一个数据指标,其命名的方式可能会存在不同,因而,现将用于表达同一个含义的关键指标字段进行统一,以便进行分析。具体的,比如,前面所述电商行业例子,在其中一个第二源数据表中登记了商品编号,但是也同时登记了商品代号,实质上二者均登记了同一商品内容,所以将二者统一用商品编号进行表示,以便形成规范统一的表格和关键指标字段。
在本发明实施例中,在执行步骤S102时,若无法通过所述标准源数据表库识别第一源数据表,则将所述第一源数据表作为所述第二源数据表进行处理。
在一些行业数据发布的平台,有时候可能涉及到全新的数据格式信息,那么在获取到相关的全新数据格式信息的时候,按照之前的标准源数据表和标准目标表可能会存在无法有效及时的统计获取,因而可以将其作为新的源数据表进行处理,即将其作为本发明实施例中所述的第一源数据表构建相应的标准源数据表和相应的标准目标表,以便提高ETL数据处理的灵活性。
在本发明实施例中,如图4,为本发明实施例中提供的将所述第一源数据表的数据同步到所述标准源数据表的流程图,步骤S102具体包括:
步骤S401,将所述第一源数据表和所述标准源数据表进行对比;
步骤S402,将与所述标准源数据表含有相同含义字段的至少一个所述第一源数据表与所述标准源数据表进行关联;
步骤S403,将所述至少一个所述第一源数据表的数据同步到所述标准源数据表中。
其中,将所述第一源数据表和所述标准源数据表进行对比,从而找到第一源数据表和标准源数据表之间关键指标数据的字段对应关系,根据该对应关系将第一源数据表和标注源数据表关联起来。同时在将第一源数据表与标准源数据表中的字段建立对应关系的时候,即使多个第一源数据表中的数据对应着相同的标准源数据表,可以将包含有与标准数据表对应数据字段的多个第一源数据表的有关部分进行整理输出在同一个标准源数据表中,以便进行统一归集处理。
进一步的,在用对比识别将第一源数据表和标准源数据表建立关联后,可以利用自动生成相应的SQL语句,该功能语句相当于可以实现数据同步的智能组件,进而将第一源数据表数据同步到标准源数据表中。
在本发明实施例中,如图5,为本发明实施例中提供的将所述第一源数据表和所述标准源数据表进行对比的流程图,步骤S401具体包括:
步骤501,识别所述第一源数据表的数据字段,比较所述第一源数据表的数据字段与所述标准源数据表中的数据字段含义是否相同;和/或
步骤502,通过所述第一源数据表的数据字段与所述标准源数据表中的数据字段的正则表达式判断二者的数据字段是否相同。
在本发明实施例中,对第二源数据表的数据字段识别,可以采用人工智能识别的方式进行,从而将尚未标准处理的第二源数据表与标准源数据表之间建立数据字段对应关系,将第二源数据表的数据按照对应的标准源数据表进行归集统计,便于进行配置同步。另外,本发明实施例中还可以通过正则表达式来表示各类数据,然后通过正则表达式来判断目标数据字段是否相同。
另外,在本发明实施例中,步骤S103中将所述标准源数据表与预设的标准目标表关联,将所述标准源数据表的数据同步到所述标准目标表中的步骤,具体包括:
在所述标准源数据表和所述目标表之间建立关联,通过包括但不限于清洗、聚合、指标提取计算的方式进行同步配置。
在本发明实施例中,在标准源数据表和标准目标表之间通过清洗、聚合、指标提取计算等手段进行配置处理在本发明所属技术领域中比较常见,再次不进一步的详细展开。
本发明实施例提供的ETL数据处理方法将其他源数据表配置到标准源数据表,并将标准源数据表同步到目标数据库能够快速的进行数据的处理,提高了数据处理效率。
实施例二
如图6所示,在一个实施例中,提出了一种ETL数据处理装置,本实施例中该装置可以集成在终端或服务器中。一种ETL数据处理装置,具体可以包括:
数据获取单元610,用于与源数据库连接,从所述源数据库中获取第一源数据表;
源数据标准处理单元620,用于通过预设的标准源数据表对所述第一源数据表进行识别和匹配,将所述第一源数据表的数据同步到所述标准源数据表;
目标表同步处理单元630,用于将所述标准源数据表与预设的标准目标表关联,将所述标准源数据表的数据同步到所述标准目标表中,以将所述标准目标表数据同步到目标数据库,完成ETL数据处理。
在本发明实施例中,源数据库主要是指进行ETL数据处理的对象库,其能直接提供原始资料或具体数据可包括数值数据库、文本-数值数据库、全文数据库、术语数据库、图像数据库、音视频数据库等等。具体的比如可以使某个行业的业务库,当然上述仅是作为源数据库的一个举例,并不对本发明实施例中的ETL数据处理方法应用的对象进行严格的限定。
在本发明实施例中,预设的标准源数据表和预设的标准目标表可以是按照一定的行业数据分析后进行创建的,具体的,如图7,为本发明实施例中提供的另一ETL数据处理装置的结构框图,其中,其与图6中的不同之处在于,还包括标准建立单元640,标准建立单元640用于执行以下步骤:
获取行业数据,根据所述行业数据分析行业关键指标数据,并根据所述关键指标数据建立标准目标表;和/或
获取行业数据,根据所述行业数据提取第二源数据表,并根据所述第二源数据表建立标准源数据表,所述标准源数据表的标准内容包括但不限于表格格式标准和字段标准。
在本发明实施例中,行业数据相当于作为样本数据,通过对行业数据的分析,研究其行业关键数据的规律和统计情况,从而有针对性的建立对应行业有关关键指标数据的标准目标表格式,从而对于该相关行业的数据能够快速按照标准格式进行整理,极大地提高ETL数据处理速度。
具体的,在分析行业数据的时候,具体分析关键指标数据可以是通过分类提取指标,比如,本发明实施例中以电商行业为例进行说明。针对电商行业,统计电商行业相关的行业数据,其可能包括的信息有针对商品销量分析,具体比如包括各品类商品趋势分析、季节、时段效应、活动效应、品牌效应、各渠道销量比较与趋势分析、各类用户销量分析等相关的内容;相关内容在第一源数据表集中可能是通过某些指标进行统计的,比如从商品销量分析中提取的指标有订单数、复购率、退货率、满意度等,更为具体的可能通过分类从各个维度进行分析统计的数据,比如分为从商品维度包括:商品名称、商品编号、商品类别、品牌、价位,从时间维度包括:年、月、日、时段、季节、是否工作日,从活动维度包括:活动id、活动名称、活动类别,从用户维度包括:用户id、用户年限、消费等级、偏好品类、偏好品牌。在本发明实施例中,根据所述行业数据分析行业关键指标数据,并根据所述关键指标数据建立标准目标表则是将上述涉及的内容通过预设的标准格式表格对其详细字段内容进行统计,然后形成标准目标表统计样本。并且,在本发明实施例中分析的行业数据越多,结合其建立的标准源数据表的完整性越好。同时,可以理解的是,在本发明实施例中,建立标准目标表之后,可以将一定数量的标准目标表组成标准目标表库,以便随时相应的调用。
在本发明实施例中,标准建立单元640建立标准源数据表的过程具体包括以下步骤:
获取行业数据,根据所述行业数据提取第二源数据表;
按照预设规则对所述第二源数据表进行字段命名标准化处理,以形成标准源数据表;其中对所述第二源数据表进行字段命名标准化处理包括但不限于将所述第二源数据表中所有用于表达同一含义的字段用同一字段表示。
具体的,结合上述电商行业的例子,第二源数据表可以是商品表、订单表、用户表等,这一类数据均可以来源于一般的行业共享数据库,比如电子商城的业务数据库等。其中,在对第二源数据表进行字段命名标准化处理的过程具体是指将关键指标字段进行标准化命名,考虑到即使在同一个行业数据集合,同一个数据指标,其命名的方式可能会存在不同,因而,现将用于表达同一个含义的关键指标字段进行统一,以便进行分析。具体的,比如,前面所述电商行业例子,在其中一个第二源数据表中登记了商品编号,但是也同时登记了商品代号,实质上二者均登记了同一商品内容,所以将二者统一用商品编号进行表示,以便形成规范统一的表格和关键指标字段。
在本发明实施例中,源数据标准处理单元620具体还用于,若无法通过所述标准源数据表库识别第一源数据表,则将所述第一源数据表作为所述第二源数据表进行处理。
在一些行业数据发布的平台,有时候可能涉及到全新的数据格式信息,那么在获取到相关的全新数据格式信息的时候,按照之前的标准源数据表和标准目标表可能会存在无法有效及时的统计获取,因而可以将其作为新的源数据表进行处理,即将其作为本发明实施例中所述的第一源数据表构建相应的标准源数据表和相应的标准目标表,以便提高ETL数据处理的灵活性。
在本发明实施例中,源数据标准处理单元620将所述第一源数据表的数据同步到所述标准源数据表的过程具体包括:
将所述第一源数据表和所述标准源数据表进行对比;
将与所述标准源数据表含有相同含义字段的至少一个所述第一源数据表与所述标准源数据表进行关联;
将所述至少一个所述第一源数据表的数据同步到所述标准源数据表中。
其中,将所述第一源数据表和所述标准源数据表进行对比,从而找到第一源数据表和标准源数据表之间关键指标数据的字段对应关系,根据该对应关系将第一源数据表和标注源数据表关联起来。同时在将第一源数据表与标准源数据表中的字段建立对应关系的时候,即使多个第一源数据表中的数据对应着相同的标准源数据表,可以将包含有与标准数据表对应数据字段的多个第一源数据表的有关部分进行整理输出在同一个标准源数据表中,以便进行统一归集处理。
进一步的,在用对比识别将第一源数据表和标准源数据表建立关联后,可以利用自动生成相应的SQL语句,该功能语句相当于可以实现数据同步的智能组件,进而将第一源数据表数据同步到标准源数据表中。
在本发明实施例中,源数据标准处理单元620将所述第一源数据表的数据同步到所述标准源数据表的过程具体包括:
识别所述第一源数据表的数据字段,比较所述第一源数据表的数据字段与所述标准源数据表中的数据字段含义是否相同;和/或
通过所述第一源数据表的数据字段与所述标准源数据表中的数据字段的正则表达式判断二者的数据字段是否相同。
在本发明实施例中,对第二源数据表的数据字段识别,可以采用人工智能识别的方式进行,从而将尚未标准处理的第二源数据表与标准源数据表之间建立数据字段对应关系,将第二源数据表的数据按照对应的标准源数据表进行归集统计,便于进行配置同步。另外,本发明实施例中还可以通过正则表达式来表示各类数据,然后通过正则表达式来判断目标数据字段是否相同。
另外,在本发明实施例中,目标表同步处理单元630将所述标准源数据表与预设的标准目标表关联,将所述标准源数据表的数据同步到所述标准目标表中的步骤,具体包括:
在所述标准源数据表和所述目标表之间建立关联,通过包括但不限于清洗、聚合、指标提取计算的方式进行同步配置。
在本发明实施例中,在标准源数据表和标准目标表之间通过清洗、聚合、指标提取计算等手段进行配置处理在本发明所属技术领域中比较常见,再次不进一步的详细展开。
本发明实施例提供的ETL数据处理方法将其他源数据表配置到标准源数据表,并将标准源数据表同步到目标数据库能够快速的进行数据的处理,提高了数据处理效率。
实施例三
在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
与源数据库连接,从所述源数据库中获取第一源数据表;
通过预设的标准源数据表对所述第一源数据表进行识别和匹配,将所述第一源数据表的数据同步到所述标准源数据表;
将所述标准源数据表与预设的标准目标表关联,将所述标准源数据表的数据同步到所述标准目标表中,以将所述标准目标表数据同步到目标数据库,完成ETL数据处理。
图8示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是独立的物理服务器或终端,也可以是多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。还可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。如图8所示,该计算机设备包括该计算机设备包括通过系统总线链接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现ETL数据处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行ETL数据处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例四
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
与源数据库连接,从所述源数据库中获取第一源数据表;
通过预设的标准源数据表对所述第一源数据表进行识别和匹配,将所述第一源数据表的数据同步到所述标准源数据表;
将所述标准源数据表与预设的标准目标表关联,将所述标准源数据表的数据同步到所述标准目标表中,以将所述标准目标表数据同步到目标数据库,完成ETL数据处理。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种ETL数据处理方法,其特征在于,包括以下步骤:
与源数据库连接,从所述源数据库中获取第一源数据表;
通过预设的标准源数据表对所述第一源数据表进行识别和匹配,将所述第一源数据表的数据同步到所述标准源数据表;
将所述标准源数据表与预设的标准目标表关联,将所述标准源数据表的数据同步到所述标准目标表中,以将所述标准目标表数据同步到目标数据库,完成ETL数据处理。
2.根据权利要求1所述ETL数据处理方法,其特征在于,所述通过预设的标准源数据表对所述第一源数据表进行识别和匹配,将所述第一源数据表的数据同步到所述标准源数据表的步骤之前,还包括:
获取行业数据,根据所述行业数据分析行业关键指标数据,并根据所述关键指标数据建立标准目标表;和/或获取行业数据,根据所述行业数据提取第二源数据表,并根据所述第二源数据表建立标准源数据表,所述标准源数据表的标准内容包括但不限于表格格式标准和字段标准。
3.根据权利要求2所述ETL数据处理方法,其特征在于,所述获取行业数据,根据所述行业数据提取第二源数据表,并根据所述第二源数据表建立标准源数据表的步骤,具体包括:
获取行业数据,根据所述行业数据提取第二源数据表;
按照预设规则对所述第二源数据表进行字段命名标准化处理,以形成标准源数据表;其中对所述第二源数据表进行字段命名标准化处理包括但不限于将所述第二源数据表中所有用于表达同一含义的字段用同一字段表示。
4.根据权利要求2所述ETL数据处理方法,其特征在于,所述通过预设的标准源数据表对所述第一源数据表进行识别和匹配,将所述第一源数据表的数据同步到所述标准源数据表的步骤,还包括:
若无法通过所述标准源数据表库识别第一源数据表,则将所述第一源数据表作为所述第二源数据表进行处理。
5.根据权利要求1所述ETL数据处理方法,其特征在于,所述通过预设的标准源数据表对所述第一源数据表进行识别和匹配,将所述第一源数据表的数据同步到所述标准源数据表的步骤,具体包括:
将所述第一源数据表和所述标准源数据表进行对比;
将与所述标准源数据表含有相同含义字段的至少一个所述第一源数据表与所述标准源数据表进行关联;
将所述至少一个所述第一源数据表的数据同步到所述标准源数据表中。
6.根据权利要求5所述ETL数据处理方法,其特征在于,所述将所述第一源数据表和所述标准源数据表进行对比的步骤,具体包括:
识别所述第一源数据表的数据字段,比较所述第一源数据表的数据字段与所述标准源数据表中的数据字段含义是否相同;和/或
通过所述第一源数据表的数据字段与所述标准源数据表中的数据字段的正则表达式判断二者的数据字段是否相同。
7.根据权利要求1所述ETL数据处理方法,其特征在于,所述将所述标准源数据表与预设的标准目标表关联,将所述标准源数据表的数据同步到所述标准目标表中的步骤,具体包括:
在所述标准源数据表和所述目标表之间建立关联,通过包括但不限于清洗、聚合、指标提取计算的方式进行同步配置。
8.一种ETL数据处理装置,其特征在于,包括:
数据获取单元,用于与源数据库连接,从所述源数据库中获取第一源数据表;
源数据标准处理单元,用于通过预设的标准源数据表对所述第一源数据表进行识别和匹配,将所述第一源数据表的数据同步到所述标准源数据表;
目标表同步处理单元,用于将所述标准源数据表与预设的标准目标表关联,将所述标准源数据表的数据同步到所述标准目标表中,以将所述标准目标表数据同步到目标数据库,完成ETL数据处理。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至7中任一项所述ETL数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至7中任一项所述ETL数据处理方法的步骤。
CN202010631872.3A 2020-07-04 2020-07-04 一种etl数据处理方法、装置、计算机设备和存储介质 Pending CN111522842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010631872.3A CN111522842A (zh) 2020-07-04 2020-07-04 一种etl数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010631872.3A CN111522842A (zh) 2020-07-04 2020-07-04 一种etl数据处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN111522842A true CN111522842A (zh) 2020-08-11

Family

ID=71910269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010631872.3A Pending CN111522842A (zh) 2020-07-04 2020-07-04 一种etl数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111522842A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063507A (zh) * 2018-07-13 2018-12-21 上海派兰数据科技有限公司 一种用于医院信息系统分析的通用设计模型
CN111078774A (zh) * 2019-12-05 2020-04-28 中国科学技术大学智慧城市研究院(芜湖) 一种数据的自动整合方法
CN111090640A (zh) * 2019-11-13 2020-05-01 山东中磁视讯股份有限公司 一种etl数据清洗方法及系统
CN111159161A (zh) * 2019-12-31 2020-05-15 青梧桐有限责任公司 基于etl规则的数据质量监控及预警系统和方法
CN111459723A (zh) * 2020-05-11 2020-07-28 浙江每日互动网络科技股份有限公司 终端数据处理系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063507A (zh) * 2018-07-13 2018-12-21 上海派兰数据科技有限公司 一种用于医院信息系统分析的通用设计模型
CN111090640A (zh) * 2019-11-13 2020-05-01 山东中磁视讯股份有限公司 一种etl数据清洗方法及系统
CN111078774A (zh) * 2019-12-05 2020-04-28 中国科学技术大学智慧城市研究院(芜湖) 一种数据的自动整合方法
CN111159161A (zh) * 2019-12-31 2020-05-15 青梧桐有限责任公司 基于etl规则的数据质量监控及预警系统和方法
CN111459723A (zh) * 2020-05-11 2020-07-28 浙江每日互动网络科技股份有限公司 终端数据处理系统

Similar Documents

Publication Publication Date Title
US10055426B2 (en) System and method transforming source data into output data in big data environments
CN103620601B (zh) 在映射缩减过程中汇合表
US9965531B2 (en) Data storage extract, transform and load operations for entity and time-based record generation
CN109543925B (zh) 基于机器学习的风险预测方法、装置、计算机设备和存储介质
WO2021027595A1 (zh) 用户画像生成方法、装置、计算机设备和计算机可读存储介质
US10445324B2 (en) Systems and methods for tracking sensitive data in a big data environment
CN107767070B (zh) 用于信息推广的方法及装置
CN113610239A (zh) 针对机器学习的特征处理方法及特征处理系统
CN110457333B (zh) 数据实时更新方法、装置及计算机可读存储介质
CN109658126B (zh) 基于产品推广的数据处理方法、装置、设备及存储介质
CN111078776A (zh) 数据表的标准化方法、装置、设备及存储介质
CN111553137B (zh) 报告生成方法、装置、存储介质及计算机设备
CN110765101B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN113836131A (zh) 一种大数据清洗方法、装置、计算机设备及存储介质
US20240095256A1 (en) Method and system for persisting data
CN111078980A (zh) 基于征信大数据的管理方法、装置、设备及存储介质
CN115438740A (zh) 一种多源数据的汇聚融合方法和系统
US10824803B2 (en) System and method for logical identification of differences between spreadsheets
US20070282804A1 (en) Apparatus and method for extracting database information from a report
JP6489340B1 (ja) 比較対象企業選定システム
CN110765778A (zh) 一种标签实体处理方法、装置、计算机设备和存储介质
CN115757909A (zh) 构建客户、产品与服务的融合画像的方法、装置及终端
CN111522842A (zh) 一种etl数据处理方法、装置、计算机设备和存储介质
CN114780648A (zh) 任务调度方法、装置、计算机设备、存储介质和程序产品
CN114064976A (zh) 一种数据特征计算的方法、系统、电子装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811

RJ01 Rejection of invention patent application after publication