CN107463709A - 一种基于多数据源的etl处理方法及装置 - Google Patents

一种基于多数据源的etl处理方法及装置 Download PDF

Info

Publication number
CN107463709A
CN107463709A CN201710719640.1A CN201710719640A CN107463709A CN 107463709 A CN107463709 A CN 107463709A CN 201710719640 A CN201710719640 A CN 201710719640A CN 107463709 A CN107463709 A CN 107463709A
Authority
CN
China
Prior art keywords
data source
data
etl
source
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710719640.1A
Other languages
English (en)
Inventor
陈越晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201710719640.1A priority Critical patent/CN107463709A/zh
Publication of CN107463709A publication Critical patent/CN107463709A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于多数据源的ETL处理方法及装置,该方法包括:将不同类型的数据源添加到一个操作平台,当需要进行ETL处理时,从已添加的数据源中选取进行ETL处理所需的第一目标数据源和第二目标数据源,接收用户依据预设的大数据处理标准,设置ETL处理规则;依据ETL处理规则,执行ETL处理的步骤。通过本实施例的方法,对于多源ETL工具来说,方便开发者将所有数据源信息保存在本发明所属的平台上,而无需各自业务保存在各自的内部文档中,当有数据源加入时,也只需将该新的数据源添加进去即可,因此,数据开发时,无需在多个数据源的不同接口类型中进行切换,不仅减小了开发人员的工作量,而且提高了开发的效率。

Description

一种基于多数据源的ETL处理方法及装置
技术领域
本发明涉及大数据处理领域,尤其涉及一种基于多数据源的ETL处理方法及装置。
背景技术
随着大数据业务的发展,对数据进行ETL(英文全称:Extract-Transform-Load,中文全称:数据仓库技术)处理非常的普遍。ETL处理的过程大致为从一个数据源中提取数据,将提取的数据转换为一个标准的格式,并加载到另外一个目标数据源的过程。目前,存在多种不同类型的数据源,例如:关系型Mysql、非关系型HBase、数据仓库有Hive、文件存储HDFS、具有存储功能的文件索引服务Elasticsearch;而不同的数据类型的数据源可能会具有不同的接口类型。
现有技术中,针对不同的接口类型的数据源技术人员需要开发不同的ETL处理工具进行ETL处理,这样不仅增加了技术开发人员的工作量,而且开发效率低。
发明内容
有鉴于此,本发明实施例提供了一种基于多数据源的ETL处理方法,解决了现有技术中,针对不同的接口类型的数据源技术人员需要开发不同的ETL处理工具进行ETL处理,不仅增加了技术开发人员的工作量,而且开发效率低的问题。
本发明实施例提供了一种基于多数据源的ETL处理方法,所述方法包括:
选取对待处理数据进行ETL处理所需的第一目标数据源和第二目标数据源;其中,所述第一目标数据源为所述待处理数据的来源端,所述第二目标数据源为将所述待处理数据进行ETL处理后进行存储的目的端;
接收用户设置的ETL处理规则;
依据所述ETL处理规则,从所述第一目标数据源中提取待处理数据,对所述待处理数据进行相应的ETL处理,得到所述待处理数据的处理结果,并将所述处理结果加载到所述第二目标数据源。
可选的,还包括:
依据数据源的类型,添加所述数据源;其中,所述第一目标数据源和第二目标数据源是从添加的所述数据源中选取的。
可选的,所述依据数据源的类型,添加所述数据源,包括:
从预设的目的地址导入所述数据源;
设置所述所述数据源的相关信息;所述相关信息包括:数据源名称、数据源类型和数据源中数据表的访问方式;
将设置的所述数据源的相关信息进行保存、以及将所述数据源依据预设的规则进行保存。
可选的,所述接收用户设置的ETL处理规则,包括:
接收用户依据预设的结构化查询语言SQL的处理标准设置的处理规则。
可选的,将所述处理结果加载到所述第二目标数据源后,还可以包括:
展示对所述待处理数据进行ETL处理的结果。
本发明实施例还提供了一种基于多数据源的ETL处理装置,其特征在于,所述装置包括:
选取单元,用于选取对待处理数据进行ETL处理所需的第一目标数据源和第二目标数据源;其中,所述第一目标数据源为所述待处理数据的来源端,所述第二目标数据源为将所述待处理数据进行ETL处理后进行存储的目的端;
接收单元,用于接收用户设置的ETL处理规则;
处理单元,用于依据所述ETL处理规则,从所述第一目标数据源中提取待处理数据,对所述待处理数据进行相应的ETL处理,得到所述待处理数据的处理结果,并将所述处理结果加载到所述第二目标数据源。
可选的,所述装置还可以包括:
添加单元,用于依据数据源的类型,添加所述数据源;其中,所述第一目标数据源和第二目标数据源是从添加的所述数据源中选取的。
可选的,所述添加单元包括:
导入子单元,用于从预设的目的地址导入所述数据源;
设置子单元,用于设置所述数据源的相关信息;所述相关信息包括:数据源名称、数据源类型和数据源的数据表的访问方式;
保存子单元,用于将设置的所述数据源的相关信息进行保存、以及将所述数据源依据预设的规则进行保存。
可选的,所述接收单元,包括:
接收子单元,用于接收用户设置的依据预设的结构化查询语言SQL的处理标准设置的处理规则。
可选的,所述装置还可以包括:
展示单元,用于展示对所述待处理数据进行ETL处理的结果。
本实施例中,将不同类型的数据源添加到一个操作平台进行管理,当需要进行ETL处理时,从已添加的数据源中选取进行ETL处理所需的第一目标数据源和第二目标数据源,接收用户依据预设的大数据处理标准,设置ETL处理规则;依据所述ETL处理规则,执行ETL处理的步骤。通过本实施例的方法,对于多源ETL工具来说,可以方便开发者将所有数据源信息保存在本发明所属的平台上,而无需各自业务保存在各自的内部文档中,当有数据源加入时,也只需将该新的数据源添加进去即可,因此,数据开发时,无需在多个数据源的不同接口类型中进行切换,不仅减小了开发人员的工作量,而且提高了开发的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于多数据源的ETL处理方法的流程示意图;
图2为本发明实施例提供的一种基于多数据源的ETL处理的方法的实例示意图;
图3为本发明实施例提供的另一种基于多数据源的ETL处理的方法的实例示意图;
图4为本发明实施例提供的又一种基于多数据源的ETL处理的方法的实例示意图;
图5示出了本发明实施例中一种多数据源的ETL处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1,示出了本发明实施例中一种基于多数据源的ETL处理方法的流程示意图,在本实施例中,所述方法可以包括:
S101:选取对待处理数据进行ETL处理所需的第一目标数据源和第二目标数据源;其中所述第一目标数据源为所述待处理数据源的来源端,所述第二目标数据源为将所述待处理数据进行ETL处理后进行存储的目的端。
本实施例中,需要说明的是,本实施例的执行主体可以为一个操作平台,在该操作平台上保存有多种数据源,当需要进行ETL处理时,需要从待处理数据的来源端将所述待处理数据提取出来,并将处理后的数据存储到目的端,因此,在本实施例中,在进行ETL处理时,可以首先将所述待处理数据的来源端和处理后的数据存储的目的端,从已添加的数据源中选择出来;其中,所述待处理数据的来源端为第一目标数据源,所述处理后的数据存储的目的端为第二目标数据源。
由此,可知本实施例还包括:添加数据源,具体的,包括:
依据数据源的类型,添加所述数据源;
需要说明的是,第一目标数据源和第二目标数据源均是从添加的所述数据源中选取的。
其中,具体的,所述依据所述数据源的类型,添加所述数据源,可以包括:
从预设的目的地址导入所述数据源;
设置所述数据源的相关信息;
将设置的所述数据源的相关信息进行保存、以及将所述数据源依据预设的规则进行保存。
本实施例中,当需要将数据源添加到所述操作平台时,可以依据该数据源保存的地址,将该数据源导入到该平台中,然后,设置该数据源的相关信息,其中,所述相关信息可以包括:数据源名称、数据源类型、数据源中数据表的访问方式;所述数据表的访问方式可以包括:端口、用户名、密码等。将相关信息设置完成后,将设置的信息以及所述数据源依据预设的规则进行保存,例如:预设的规则可以为:设置的所述数据源的相关信息与所述数据源为一一对应的关系。
其中,在数据源添加到操作平台之前,可以保存在数据地图中,该数据地图中保存着多个数据源,每个数据源在数据地图中都对应一个保存地址。当操作平台需要添加某个数据源时,可以从数据地图中导入该数据源,即可以根据该数据源在数据地图中的地址,添加数据源。
举例说明:该操作平台中已添加的数据源可以包括:关系型Mysql、非关系型HBase、数据仓库有Hive、文件存储HDFS、具有存储功能的文件索引服务Elasticsearch,假设此次进行ETL处理所需的数据源为Mysql和Hive,则可以从已添加的这些数据源中,将Mysql和Hive选择出来。S102:接收用户设置的ETL处理规则;
本实施例中,将进行ETL处理所需的数据源选择出来后,用户可以自定义的设置ETL处理规则,也可以理解为用户可以自定义的设置进行ETL处理所要执行的步骤。
另外,用户设置ETL处理规则还可以依据预设的大数据处理标准进行设置,其中,进行ETL处理所遵循的大数据处理标准可以包括多种,在本实施例中,优选的为SQL(英文全称:Structured Query Language,中文全称:结构化查询语言)语言的处理标准。也就是说,用户可以依据SQL标准,编写进行ETL处理的步骤。例如:编写的SQL语句可以包括:insertoverwrite table hive_table(select*from mysql_table)等。
具体的,本实施例中,S103包括:
接收用户依据预设的结构化查询语言SQL的处理标准设置的处理规则。
S103:依据所述ETL处理规则,从所述第一目标数据源中提取待处理数据,对所述待处理数据进行相应的ETL处理,得到所述待处理数据的处理结果,并将所述处理结果加载到所述第二目标数据源。
举例说明:假设用户设置的ETL的处理规则包括:从Mysql提取table_1中的数据,并对提取出的table_1中的数据进行转换,将转换后的table_1中的数据存储到Hive中的table_3中,具体的,本实施例中,设置的ETL处理规则可以为SQL语言的形式,操作平台可以执行用户输入的SQL语言。
本实施例中,执行了S103后还可以包括:展示对所述待处理数据进行ETL处理的结果。
本实施例中,对所述待处理数据进行ETL处理的结果可以包括多种,例如,可以包括处理成功、处理失败、处理过程中产生的数据、处理失败的原因等。当处理完成后,操作平台上可以展示ETL处理的结果。
本实施例中,对所述待处理数据进行ETL处理的结果的展示形式可以有多种,可以通过文字提示的方式进行展示,也可以通过特定的符号或者形状进行展示。
本实施例中,将不同类型的数据源添加到一个操作平台进行管理,当需要进行ETL处理时,从已添加的数据源中选取进行ETL处理所需的第一目标数据源和第二目标数据源,接收用户依据预设的大数据处理标准,设置ETL处理规则;依据所述ETL处理规则,执行ETL处理的步骤。通过本实施例的方法,对于多源ETL工具来说,可以方便开发者将所有数据源信息保存在本发明所属的平台上,而无需各自业务保存在各自的内部文档中,当有数据源加入时,也只需将该新的数据源添加进去即可,因此,数据开发时,无需在多个数据源的不同接口类型中进行切换,不仅减小了开发人员的工作量,而且提高了开发的效率。
参考图2~图4提供的一种基于多数据源的ETL处理方法的实例示意图。
如图2所示,为添加数据源的界面示意图,从图中可以得知,添加数据源时,可以从数据地图中导入要添加的数据源,并在数据源名称选项的输入框中输入数据源名称,从选择数据源类型的选择框中选择相应的数据源类型,并对配置数据访问方式相对应的配置框进行数据的配置。这些操作都完成后,可以点击保存到我的数据源选项将设置的所述待添加的数据源的信息以及所述待添加的数据源依据预设的规则进行保存。
如图3所示,为用户自定义设置ETL规则的界面示意图,从图中可以得知,用户可以在不同的SQL选项框中,设置SQL语言的ETL规则,设置成功后,可以点击执行选项,从所述第一目标数据源中提取待处理数据,对所述待处理数据进行相应的ETL处理,得到所述待处理数据的处理结果,并将所述处理结果加载到所述第二目标数据源。
参考图4,为完成ETL处理后的结果展示界面示意图,从图中可以看到ETL是否处理成功,以及在数据处理过程中产生的一些数据。
本实施例中,对于多源ETL工具来说,可以方便开发者将所有数据源信息保存在本发明所属的平台上,而无需各自业务保存在各自的内部文档中,当有数据源加入时,也只需将该新的数据源添加进去即可,因此,数据开发时,无需在多个数据源的不同接口类型中进行切换,不仅减小了开发人员的工作量,而且提高了开发的效率。
参考图5,示出了本发明实施例一种基于多数据源的ETL处理装置,在本实施例中,所述装置可以包括:
选择单元501,用于选取对待处理数据进行ETL处理所需的第一目标数据源和第二目标数据源;其中,所述第一目标数据源为所述待处理数据的来源端,所述第二目标数据源为将所述待处理数据进行ETL处理后进行存储的目的端;
接收单元502,用于接收用户设置的ETL处理规则;
处理单元503,用于依据所述ETL处理规则,从所述第一目标数据源中提取待处理数据,对所述待处理数据进行相应的ETL处理,得到所述待处理数据的处理结果,并将所述处理结果加载到所述第二目标数据源。
可选的,所述装置还可以包括:
添加单元,用于依据数据源的类型,添加所述数据源。
可选的,所述添加单元包括:
导入子单元,用于从预设的目的地址导入所述数据源;
设置子单元,用于设置所述数据源的相关信息;所述相关信息包括:数据源名称、数据源类型和数据源的数据表的访问方式;
保存子单元,用于将设置的所述数据源的相关信息进行保存、以及将所述数据源依据预设的规则进行保存。
可选的,所述接收单元,包括:
接收子单元,用于接收用户依据预设的结构化查询语言SQL的处理标准设置的处理规则。
可选的,所述装置还可以包括:
展示单元,用于展示对所述待处理数据进行ETL处理的结果。
本实施例中,将不同类型的数据源添加到一个操作平台进行管理,当需要进行ETL处理时,从已添加的数据源中选取进行ETL处理所需的第一目标数据源和第二目标数据源,接收用户依据预设的大数据处理标准,设置ETL处理规则;依据所述ETL处理规则,执行ETL处理的步骤。通过本实施例的方法,对于多源ETL工具来说,可以方便开发者将所有数据源信息保存在本发明所属的平台上,而无需各自业务保存在各自的内部文档中,当有数据源加入时,也只需将该新的数据源添加进去即可,因此,数据开发时,无需在多个数据源的不同接口类型中进行切换,不仅减小了开发人员的工作量,而且提高了开发的效率。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于多数据源的ETL处理方法,其特征在于,所述方法包括:
选取对待处理数据进行ETL处理所需的第一目标数据源和第二目标数据源;其中,所述第一目标数据源为所述待处理数据的来源端,所述第二目标数据源为将所述待处理数据进行ETL处理后进行存储的目的端;
接收用户设置的ETL处理规则;
依据所述ETL处理规则,从所述第一目标数据源中提取待处理数据,对所述待处理数据进行相应的ETL处理,得到所述待处理数据的处理结果,并将所述处理结果加载到所述第二目标数据源。
2.根据权利要求1所述的方法,其特征在于,还包括:
依据数据源的类型,添加所述数据源;其中,所述第一目标数据源和第二目标数据源是从添加的所述数据源中选取的。
3.根据权利要求2所述的方法,其特征在于,所述依据数据源的类型,添加所述数据源,包括:
从预设的目的地址导入所述数据源;
设置所述数据源的相关信息;所述相关信息包括:数据源名称、数据源类型和数据源中数据表的访问方式;
将设置的所述数据源的相关信息进行保存、以及将所述数据源依据预设的规则进行保存。
4.根据权利要求1所述的方法,其特征在于,所述接收用户设置的ETL处理规则,包括:
接收用户依据预设的结构化查询语言SQL的处理标准设置的处理规则。
5.根据权利要求1所述的方法,其特征在于,将所述处理结果加载到所述第二目标数据源后,还包括:
展示对所述待处理数据进行ETL处理的结果。
6.一种基于多数据源的ETL处理装置,其特征在于,所述装置包括:
选取单元,用于选取对待处理数据进行ETL处理所需的第一目标数据源和第二目标数据源;其中,所述第一目标数据源为所述待处理数据的来源端,所述第二目标数据源为将所述待处理数据进行ETL处理后进行存储的目的端;
接收单元,用于接收用户设置的ETL处理规则;
处理单元,用于依据所述ETL处理规则,从所述第一目标数据源中提取待处理数据,对所述待处理数据进行相应的ETL处理,得到所述待处理数据的处理结果,并将所述处理结果加载到所述第二目标数据源。
7.根据权利要求6所述的装置,其特征在于,还包括:
添加单元,用于依据数据源的类型,添加所述数据源;其中,所述第一目标数据源和第二目标数据源是从添加的所述数据源中选取的。
8.根据权利要求7所述的装置,其特征在于,所述添加单元包括:
导入子单元,用于从预设的目的地址导入所述数据源;
设置子单元,用于设置所述数据源的相关信息;所述相关信息包括:数据源名称、数据源类型和数据源的数据表的访问方式;
保存子单元,用于将设置的所述数据源的相关信息进行保存、以及将所述数据源依据预设的规则进行保存。
9.根据权利要求6所述的装置,其特征在于,所述接收单元,包括:
接收子单元,用于接收用户依据预设的结构化查询语言SQL的处理标准设置的处理规则。
10.根据权利要求6所述的装置,其特征在于,还包括:
展示单元,用于展示对所述待处理数据进行ETL处理的结果。
CN201710719640.1A 2017-08-21 2017-08-21 一种基于多数据源的etl处理方法及装置 Pending CN107463709A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710719640.1A CN107463709A (zh) 2017-08-21 2017-08-21 一种基于多数据源的etl处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710719640.1A CN107463709A (zh) 2017-08-21 2017-08-21 一种基于多数据源的etl处理方法及装置

Publications (1)

Publication Number Publication Date
CN107463709A true CN107463709A (zh) 2017-12-12

Family

ID=60549140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710719640.1A Pending CN107463709A (zh) 2017-08-21 2017-08-21 一种基于多数据源的etl处理方法及装置

Country Status (1)

Country Link
CN (1) CN107463709A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073720A (zh) * 2017-12-30 2018-05-25 广州明动软件股份有限公司 应用于大数据系统的数据质量管理系统及方法
CN109960705A (zh) * 2019-01-14 2019-07-02 积成电子股份有限公司 电网自动化系统多源数据接入及展示方法
CN110413669A (zh) * 2019-06-21 2019-11-05 深圳中琛源科技股份有限公司 一种基于etl的数据处理方法、装置、终端设备及存储介质
CN110472102A (zh) * 2019-08-22 2019-11-19 北京锐安科技有限公司 一种数据处理方法、装置、设备和存储介质
WO2019223181A1 (zh) * 2018-05-21 2019-11-28 平安科技(深圳)有限公司 Etl任务数据源切换方法、系统、计算机设备和存储介质
CN111159161A (zh) * 2019-12-31 2020-05-15 青梧桐有限责任公司 基于etl规则的数据质量监控及预警系统和方法
CN112199423A (zh) * 2020-09-01 2021-01-08 河钢数字技术股份有限公司 一种etl数据质量判定与反馈方法
CN113486096A (zh) * 2021-06-21 2021-10-08 上海百秋电子商务有限公司 一种多库定时执行报表数据预处理及查询方法、系统
CN113806434A (zh) * 2021-09-22 2021-12-17 平安科技(深圳)有限公司 大数据处理方法、装置、设备及介质
CN115794930A (zh) * 2023-02-08 2023-03-14 南京纯白矩阵科技有限公司 一种可扩展的多区块链数据etl处理系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004744A (zh) * 2009-09-02 2011-04-06 中国银联股份有限公司 从一个源表到至少一个目标库的表的数据抽取系统及方法
CN104573115A (zh) * 2015-02-04 2015-04-29 新余兴邦信息产业有限公司 支持多类型数据库操作的集成接口的实现方法及系统
CN104915341A (zh) * 2014-03-10 2015-09-16 中国科学院沈阳自动化研究所 可视化多数据库etl集成方法和系统
CN105389402A (zh) * 2015-12-29 2016-03-09 曙光信息产业(北京)有限公司 一种面向大数据的etl方法和装置
CN106066871A (zh) * 2016-05-30 2016-11-02 中国人民解放军装备学院 一种基于开放接口的多源异构数据源访问方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004744A (zh) * 2009-09-02 2011-04-06 中国银联股份有限公司 从一个源表到至少一个目标库的表的数据抽取系统及方法
CN104915341A (zh) * 2014-03-10 2015-09-16 中国科学院沈阳自动化研究所 可视化多数据库etl集成方法和系统
CN104573115A (zh) * 2015-02-04 2015-04-29 新余兴邦信息产业有限公司 支持多类型数据库操作的集成接口的实现方法及系统
CN105389402A (zh) * 2015-12-29 2016-03-09 曙光信息产业(北京)有限公司 一种面向大数据的etl方法和装置
CN106066871A (zh) * 2016-05-30 2016-11-02 中国人民解放军装备学院 一种基于开放接口的多源异构数据源访问方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073720A (zh) * 2017-12-30 2018-05-25 广州明动软件股份有限公司 应用于大数据系统的数据质量管理系统及方法
WO2019223181A1 (zh) * 2018-05-21 2019-11-28 平安科技(深圳)有限公司 Etl任务数据源切换方法、系统、计算机设备和存储介质
CN109960705A (zh) * 2019-01-14 2019-07-02 积成电子股份有限公司 电网自动化系统多源数据接入及展示方法
CN109960705B (zh) * 2019-01-14 2021-01-26 积成电子股份有限公司 电网自动化系统多源数据接入及展示方法
CN110413669A (zh) * 2019-06-21 2019-11-05 深圳中琛源科技股份有限公司 一种基于etl的数据处理方法、装置、终端设备及存储介质
CN110472102A (zh) * 2019-08-22 2019-11-19 北京锐安科技有限公司 一种数据处理方法、装置、设备和存储介质
CN111159161A (zh) * 2019-12-31 2020-05-15 青梧桐有限责任公司 基于etl规则的数据质量监控及预警系统和方法
CN112199423A (zh) * 2020-09-01 2021-01-08 河钢数字技术股份有限公司 一种etl数据质量判定与反馈方法
CN113486096A (zh) * 2021-06-21 2021-10-08 上海百秋电子商务有限公司 一种多库定时执行报表数据预处理及查询方法、系统
CN113806434A (zh) * 2021-09-22 2021-12-17 平安科技(深圳)有限公司 大数据处理方法、装置、设备及介质
CN113806434B (zh) * 2021-09-22 2023-09-05 平安科技(深圳)有限公司 大数据处理方法、装置、设备及介质
CN115794930A (zh) * 2023-02-08 2023-03-14 南京纯白矩阵科技有限公司 一种可扩展的多区块链数据etl处理系统及方法

Similar Documents

Publication Publication Date Title
CN107463709A (zh) 一种基于多数据源的etl处理方法及装置
CN103902653B (zh) 一种构建数据仓库表血缘关系图的方法和装置
CN105630938A (zh) 一种智能问答系统
US9773010B1 (en) Information-driven file system navigation
US9977798B2 (en) Data migration and table manipulation in a database management system
CN108255958A (zh) 数据查询方法、装置和存储介质
US10885085B2 (en) System to organize search and display unstructured data
CN107729423B (zh) 一种大数据处理方法及装置
CN102902763B (zh) 关联、检索信息处理数据和处理信息任务的方法及装置
CN102982130A (zh) 一种nosql与rdbms的数据库同步方法和系统
EP2990965A1 (en) Versatile data model
CN105677904B (zh) 基于分布式文件系统的小文件存储方法及装置
CN104881466A (zh) 数据分片的处理以及垃圾文件的删除方法和装置
CN106484892A (zh) 数据操作方法及装置
CN106407442A (zh) 一种海量文本数据处理方法及装置
CN105760418B (zh) 用于对关系数据库表进行交叉列搜索的方法和系统
CN109491971A (zh) 一种文件过滤方法、装置、设备及计算机可读存储介质
CN105740997A (zh) 一种控制任务流程的方法、装置及数据库管理系统
CN115329753A (zh) 一种基于自然语言处理的智能数据分析方法和系统
CN105389022B (zh) 一种删除已上屏内容的处理方法及装置
CN107506473A (zh) 一种基于云计算的大数据检索方法
CN103778138A (zh) 一种连续字符串的切分方法和装置
CN104461709B (zh) 任务计划的控制方法和装置
CN109543024B (zh) 一种文本处理方法及装置
US9495400B2 (en) Dynamic output selection using highly optimized data structures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171212